Strict Standards: Only variables should be passed by reference in /home2/chato/sites/tejedoresdelweb.com/wiki/skins/GuMax.php on line 191
  • Iniciar sesión

Búsqueda en la web

De TW

Saltar a: navegación, buscar
Este artículo ha sido reformateado automáticamente desde http://www.tejedoresdelweb.com/307/article-1056.html y su formato necesita ser revisado

El propósito de este artículo es entender cuáles son las etapas en la búsqueda en el Web y cómo funciona un buscador Web. Está dirigido a usuarios de buscadores que deseen profundizar en el tema, como también a quienes publican contenido; en él no se cubre el tema de cómo realizar buenas búsquedas, sino más bien los aspectos teóricos y técnicos involucrados en el proceso.

La mayor parte de este documento está basada en la experiencia con TodoCL y en [BYRN99].

Contenido

Etapas en la Búsqueda

A nivel general, la búsqueda de información en la Web tiene varias etapas:

  1. Necesidad de información
  2. Transformación de la necesidad
  3. Búsqueda
  4. Revisión de los resultados

Necesidad de información

Una persona requiere de información. Este requerimiento puede ser estable, o ir variando, y normalmente se puede clasificar como verificación (validación de algo que la persona cree cierto), consciente (más información sobre un tema conocido) o indefinido (conceptos en un dominio desconocido). [AS96].

Otra clasificación posible es mediante un eje temporal: inicialmente el usuario busca información genérica o de transfondo respecto a un tema, luego información dentro de las aristas del tema, para finalmente escoger una aproximación en particular y profundizar en un área específica. Estas etapas son más bien secuenciales.[Vak00]

Transformación de la necesidad

Una vez que el usuario tiene la necesidad de información, si utiliza el Web puede: ingresar directamente la URL de un sitio que piense que puede satisfacer su necesidad, dirigirse a un directorio en que se pueda explorar un listado de sitios web por tema (como por ejemplo el Open Directory Project) o dirigirse a un buscador web donde se ingresen palabras clave (como Google).

Si bien unas pocas veces (del orden del 20%[HS00]) el usuario conoce un sitio específico donde puede encontrar respuesta a su inquietud, o al menos comenzar una búsqueda, es más común que recurra a un buscador web.

Ir a un buscador tiene sus complicaciones, puesto que lo que antes podía tener distintos grados de vaguedad, ahora enfrentado a la caja de búsqueda debe ser tan específico como unas pocas palabras, o en el mejor de los casos, una pregunta normal, como las que recibe Ask Jeeves.

La mayoría de los buscadores recibe un poco más que sólo palabras, por ejemplo, se puede rodear una frase entre comillas para decir que se necesitan calces de esa frase tal como está escrita allí, o se antepone un signo + a ciertas palabras para forzar su inclusión, etc. Estos operadores son usados por los usuarios más avanzados; y su uso significa mejores resultados para quienes los saben ocupar.

Búsqueda

El proceso de búsqueda es lo más oscuro para los usuarios, durante él se realizan varias operaciones que casi siempre implican consultar un índice de páginas, que es una representación compacta del contenido de éstas. El buscador obtiene una lista de documentos, luego los ordena de mayor a menor importancia (esto se llama ranking), los consolida (ej.: eliminar duplicados, agrupar los de un mismo sitio, etc.) y los presenta al usuario.

Revisión de los Resultados

En esta etapa el usuario se enfrenta a algunas decenas de direcciones (URLS), elige una que le parece interesante, la revisa, escoge otra, navega un rato, vuelve atrás, hace una nueva consulta, etc. Tiene múltiples alternativas. Es muy raro que a la primera consulta el buscador le muestre páginas de su interés; lo normal son más de 2 consultas por sesión antes de darse por vencido, encontrar lo que se buscaba o cambiar de buscador o de método.

Lamentablemente, es muy común que la persona no encuentre lo que buscaba, sea porque se distrajo navegando por páginas de otras temáticas, o porque simplemente no desea dedicarle más tiempo a la búsqueda. Encontrar información en Internet, es un proceso que puede ser bastante frustrante, como seguramente más de alguno de los lectores sabe por experiencia propia.

Cómo funciona un Buscador

Buscador diagrama general.gif

Un buscador Web tiene tres subsistemas:

  • Un Recolector que visita una serie de páginas Web, incorporandolas a una Colección

0 Un Indexador que convierte la colección en una estructura más manejable y pequeña, llamada Índice

  • Un Buscador propiamente tal que recupera ciertas páginas del índice basado en un requerimiento del usuario

Recolector

El recolector tiene la tarea de crear la colección de páginas, para ello, visita una serie de páginas iniciales o puntos de partida, las incorpora a la colección, extrae los enlaces de estas páginas, verifica si están o no presentas ya, y si no están, visita estas páginas referenciadas.

El proceso es recursivo, y se realiza en un ciclo:

1.Revisar la lista de URLs por visitar y escoger una 2.Visitar esa dirección 3.Transformarla para incorporarla a la colección (normalmente, eliminar etiquetas e imágenes de la página, convertir documentos Word o PDF a texto simple, recortarla si es demasiado grande) 4.Extraer los links de la página, y si alguno no está en la lista, agregarlo 5.Volver al primer paso

Indexador

Indice invertido.gif

Lo usual es utilizar un índice invertido. En él, la colección es convertida a una lista de palabras, cada una de las cuales apunta a una lista de documentos.

Buscador

Ahora buscar es muy fácil, por ejemplo, si alguien necesita los documentos donde aparezca "casa", el sistema busca en la lista (índice) la palabra "casa", y obtiene de inmediato cuales son los documentos que contienen la palabra. Si se pregunta por dos o más términos, el sistema deberá comparar las listas de cada uno de los términos, realizando una unión o intersección según corresponda.

Cómo vemos, encontrar los documentos no es difícil. El real desafío es encontrar los mejores documentos. La Web es enorme, y hay montones de páginas en ella, pero una persona no puede hacer nada útil si el buscador le entrega 10000 páginas para que las revise - ¡no terminaría nunca!, así que el proceso de ranking (ordenamiento) es crucial para tener, digamos, 10 o 20 direcciones, cantidad que es mucho más razonable.

Una aproximación es comparar las palabras de la consulta con las palabras que hay en los documentos encontrados. Esto es un poco más complejo que simplemente contar cuantas veces aparece cada palabra de la consulta en cada documento, puesto que hay una variable extra a considerar.

Si la página encontrada contiene una palabra por la que se preguntó al buscador, que no aparece en casi ningún otro documento, entonces eso es una buena evidencia de que la página que estamos mirando es importante. Esto ha sido usado durante años con bastante éxito.

Una opción alternativa es la propuesta en [Kle98]. En síntesis se utilizan los links entre las páginas como evidencia. Una forma simple de comenzar a entenderlo es la siguiente hipótesis: una página con buen contenido, seguramente es referenciada desde muchos buenos índices.

Hubs authorities.gif

Por ejemplo, en la figura tenemos numeradas algunas potenciales índice, y con letras las potenciales páginas de contenido. Vemos que 'b' y 'g' claramente atraen la mayoría de los enlaces desde otras páginas, por lo cual las marcamos como la "mejores páginas de contenido".

Así mismo, la página '4' se destaca como "mejor página índice", precisamente porque apunta a las dos "mejores páginas de contenido". No es la página con más enlaces necesariamente, de hecho '5' tiene más enlaces, pero no son los más apropiados. Al mismo tiempo, el puntaje como página de contenido de 'c' aumenta, porque aparece en una buena fuente de información. Este procedimiento se repite varias veces, sumando puntos como índice y como contenido.

Con algunas variaciones, este esquema se utiliza para rankear resultados en las máquinas de búsqueda más actuales, normalmente en combinación con el ranking por contenido que mostrabamos más arriba.

No está todo dicho, pero al menos es un comienzo para seguir leyendo por su cuenta, si les interesan estos temas.

Referencias

Las referencias de este artículo no están en el formato apropiado y necesitan ser arregladas.

Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval Addison-Wesley-Longman, 1999

Maristella Agosti, Alan Smeaton: Information Retrieval and Hypertext Kluwer Academic Publisher, 1996.

Pertti Vakkari: Relevance and Contributing Information types of Searched Documents in task performance Proc. of SIGIR 2000.

Cristoph Hölscher, Gerhahrd Strube: Web search behavior of Internet experts and Newbies Proc. of WWW9, 2000.

Jon Kleinberg: Authoritative sources in a Hyperlinked environment Proc. of ACM-SIAM Symposium on Discrete Algorithms, 1998.