|
Las máquinas de búsqueda en Internet, al igual que sus usuarios, se encuentran sobrepasados por el problema de la abundancia. Para prácticamente cualquier consulta que a uno se le pudiese ocurrir, existen literalmente desde miles hasta millones de páginas que podrían ser apropiadas para dicha consulta. El gran tema de los buscadores como Google, Yahoo!, MSN o Ask no es el de encontrar alguna página que hable sobre el tema solicitado, sino el de seleccionar, cuidadosamente, cuáles son las 10 o 20 más relevantes y en qué orden deberían listarse.
Para producir el orden en que aparecen las páginas Web, se usan dos tipos de evidencia. Por una parte está el ordenamiento estático, que es una medida de qué tan buena es una página independientemente de la consulta realizada. Este ordenamiento estático se realiza tomando en cuenta, por ejemplo, cuánto texto tiene la página, cuántas imágenes, cuántos enlaces entrantes, y muchas otras características. Este ordenamiento estático es independiente del contexto. Es una aproximación del valor de la página en sí misma.
Por otra parte, el ordenamiento dinámico intenta predecir qué tan relevante es la consulta para el usuario, considerando obviamente como factor central las palabras consultadas, así como también el idioma, la ubicación geográfica o hasta la hora del día o la fecha. De la combinación entre lo estático y lo dinámico surge el orden en el cual se presentan los resultados al usuario finalmente.
Ambos tipos de ordenamiento son actualmente tema de investigación para las empresas que operan los buscadores así como para universidades y centros de investigación privados en todo el mundo. El tema es difícil y tiene, entre otras complicaciones, el problema de la subjetividad, es decir, lo que es más relevante para una persona puede no serlo para otra.
El término "spam" (con minúsculas), ha sido usando normalmente en la era de Internet para referirse a mensajes masivos, no solicitados, de tipo comercial. La forma más normal de difusión del spam es el correo electrónico, pero en la práctica, cada tecnología nueva crea una oportunidad para el envío de estos mensajes. Por ejemplo, hoy en día se habla de spim (spam por mensajería instantánea), spit (spam por telefonía IP), spam por celular, por fax, etc. La Web no está ausente de esta lista, por cierto.
La diferencia está que en la Web, por el mismo paradigma de que es el usuario el que solicita la página al servidor antes de que el servidor entregue la página, no es posible para un spammer enviarnos directamente su publicidad, como pasa en el correo electrónico. El spam en la Web toma una forma ligeramente distinta. Lo que los spammers hacen es tratar de engañar a las máquinas de búsqueda para que, indirectamente, ellas lleven a más usuarios a sus sitios. Esto se conoce como spamdexing (una combinación de spamming e indexing).
La Web es una gran herramienta para llegar a millones de usuarios a un bajo costo. Una fracción importante de las visitas aun sitio Web se originan en las máquinas de búsqueda, y la mayoría de los usuarios hacen click solamente en los primeros resultados. Por lo tanto, existe un incentivo económico para manipular los listados de los buscadores creando páginas que estén en una buena posición, independientemente de su mérito real. En la práctica, esta manipulación está bastante extendida y ha ido aumentando con los años.
Aquí también existe el problema de la subjetividad. Hay una zona gris bastante amplia entre la Optimización para Máquinas de Búsqueda (S.E.O. por sus siglas en inglés) y el Web Spam. Los servicios que ofrecen las empresas de SEO tienen que ver con asegurarse de que un sitio sea encontrable por los buscadores. Los servicios que ofrecen los spammers incluyen la creación de miles o millones de páginas falsas que tienen como propósito el engañar a las máquinas de búsqueda y a sus usuarios.
En cualquier caso, la relación entre el administrador de un sitio Web que intenta tener un alto rating y el administrador de la máquina de búsqueda es una relación entre adversarios en un juego de suma cero . Cada ganancia inmerecida de ranking para una página es una pérdida de precisión para la máquina de búsqueda.
Las técnicas con que engañosamente se intenta alterar los resultados de las máquinas de búsqueda son bastante conocidas. Básicamente se pueden dividir en dos grupos: ataques basados en palabras clave o keywords, y ataques basados en enlaces.
Los ataques basados en keywords se refieren básicamente a la repetición sin sentido de las mismas palabras una y otra vez, alternando sinónimos, frases relacionados y variantes con errores ortográficos. La idea de este tipo de ataque es engañar a los sistemas que ocupan el modelo vectorial de similitud de texto para que le entreguen un puntaje inmerecidamente alto a la página en cuestión frente a consultas que incluyan esas palabras.
| Ejemplo Web Spam |  | Click en la imagen para ver varios ejemplos de páginas de spam.
|
Por otra parte, los ataques basados en enlaces se refieren a la creación artificial de literalmente miles de páginas que apuntan hacia una página objetivo, con el propósito de incrementar su puntaje en los sistemas que ocupan algoritmos de análisis de enlaces para ordenamiento estático de las páginas, que es el caso de la mayoría de los buscadores.
Estas páginas a veces son fáciles de reconocer, pero otras veces toman la forma de portales falsos que disfrazan su intención detrás de una apariencia inocente. Un caso bastante singular de este tipo de ataque son los buscadores falsos, que entregan la misma página de resultados sin importar lo que se les consulte: por ejemplo, uno busca "zapatos" y el buscador ofrece resultados relacionados con viagra.
| Ejemplo buscador falso |  |
Estos buscadores falsos asignan a cada página de los resultados que generan una URL aparentemente distinta, así que pueden incrementar dramáticamente el conteo de enlaces de cualquier página.
Los humanos somos notablemente dificiles de imitar. Todo lo que se hace por software siempre tiene una apariencia artificial que se hace evidente si se mira con el prisma adecuado. Por ejemplo, el texto escrito por humanos tiene una mezcla particular de regularidad (obedecer las reglas sintácticas de nuestro idioma) y variabilidad (en las temáticas y las expresiones usadas). La mayoría de los sitios Web generados automáticamente con propósitos maliciosos se detectan fácilmente mediante un análisis estadístico bien enfocado. Otra parte de los sitios Web artificiales son notablemente difíciles de detectar, sobre todo cuando incluyen una mezcla de contenido real y contenido artificial, o cuando realizan un esfuerzo limitado, cuidadosamente calibrado para no hacer sonar las alarmas de los buscadores.
Existen señales positivas que apuntan a un posible mejoramiento de la calidad de los resultados de búsqueda y mucha investigación en curso en torno al tema del spam en la Web. Por ejemplo, en febrero de este año, el sitio alemán de la BMW fue "castigado" por Google al detectarse que utilizaba páginas llenas de keywords para promocionar sus automóviles. Como escribían Ntoulas y otros (2006), "la victoria no requiere la perfección, simplemente ... alterar el balance económico de los que quieren ser spammers".
Para profundizar en el tema:
- Carlos Castillo, Debora Donato, Aristides Gionis, Vanessa Murdock and Fabrizio Silvestri: "Web Spam Detection Using the Web Topology". To appear in SPIRE 2007.
- Marco Gori y Ian Witten: "The Bubble of Web Visibility". Comm. ACM, vol. 48, núm. 3, pp. 115-117. Marzo 2005.
- Zoltán Gyöngyi y Hector Garcia-Molina: "Spam: It's Not Just for Inboxes Anymore". IEEE Computer Magazine, vol. 38, no. 10, pp. 28-34. Octubre 2005.
- Alexandros Ntoulas, Mark Najork, Mark Manasse, y Dennis Fetterly: "Detecting spam web pages through content analysis". World Wide Web Conference, pp. 83-92. Edimburgo, Escocia, Mayo 2006.
Buscadores falsos, web spam, engaños máquinas de búsqueda, optimización buscadores, seo, sem |