Crawling
Problema
Tipos de crawler
Primeros crawlers
Segunda generación
Taxonomía crawler
Arquitectura
Arq. general
Arq. Mercator
Arq. WIRE
Scheduling
Sched. en general
Sched. en dos fases
Sched. largo plazo
Uso de red
Sched. corto plazo
Red, uso óptimo
Óptimo no es posible
Red escenario realista
Red, soluciones extremas
Crawling en la práctica
Web oculta
Problemas de servidores
Problemas del crawler 1
Problemas del crawler 2
Problemas del crawler 3
Resultados scheduling largo plazo
Pagrank versus día del crawl
Pagerank versus profundidad
Frescura de copia local
Polling
Definición frescura y edad
Frescura y Edad
Interrupt-based cooperation
Cooperation issues
Cooperation schemes 1
Cooperation schemes 2
Cost-benefit (polling)
Cost-benefit (interrupt)
Cooperación, ¿es posible?
Conclusiones
Autor: Carlos Castillo
Correo-e: chato@chato.cl
Página principal: http://www.TejedoresDelWeb.com/
Descargar fuente de presentación