Pulse aquí para comenzar

Índice de contenido

Crawling

Problema

Tipos de crawler

Primeros crawlers

Segunda generación

Taxonomía crawler

Arquitectura

Arq. general

Arq. Mercator

Arq. WIRE

Scheduling

Sched. en general

Sched. en dos fases

Sched. largo plazo

Uso de red

Sched. corto plazo

Red, uso óptimo

Óptimo no es posible

Red escenario realista

Red, soluciones extremas

Crawling en la práctica

Web oculta

Problemas de servidores

Problemas del crawler 1

Problemas del crawler 2

Problemas del crawler 3

Resultados scheduling largo plazo

Pagrank versus día del crawl

Pagerank versus profundidad

Frescura de copia local

Polling

Definición frescura y edad

Frescura y Edad

Interrupt-based cooperation

Cooperation issues

Cooperation schemes 1

Cooperation schemes 2

Cost-benefit (polling)

Cost-benefit (interrupt)

Cooperación, ¿es posible?

Conclusiones

Autor: Carlos Castillo

Correo-e: chato@chato.cl

Página principal: http://www.TejedoresDelWeb.com/

Descargar fuente de presentación