La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Efficient Distributed Web Crawling Utilizing Internet Resources Exploration Web distribuée efficace utilisant les ressources Internet

Xiao XU, Weizhe ZHANG, Hongli ZHANG, Binxing FANG

  • Vues en texte intégral

    0

  • Citer

Résumé:

L'informatique sur Internet est proposée pour exploiter les ressources informatiques personnelles sur Internet afin de créer des applications Web à grande échelle à moindre coût. Dans cet article, un modèle d'exploration Web distribué basé sur DHT et basé sur le concept d'informatique Internet est proposé. Aussi, nous proposons deux optimisations pour réduire le temps de téléchargement et le temps d'attente des tâches d'exploration Web afin d'augmenter le débit et le taux de mise à jour du système. Sur la base de notre système de téléchargement convivial pour les contributeurs, l'amélioration du temps de téléchargement est obtenue en raccourcissant les RTT crawler-crawlee. Afin d'estimer avec précision les RTT, un système de coordonnées de réseau est combiné avec le DHT sous-jacent. L'amélioration du temps d'attente est obtenue en redirigeant les tâches d'exploration entrantes vers des robots d'exploration peu chargés afin de maintenir la file d'attente sur chaque robot d'exploration de taille égale. Nous proposons également une méthode simple de partitionnement de site Web pour diviser un grand site Web en morceaux plus petits afin de réduire la granularité des tâches. Toutes les méthodes proposées sont évaluées à travers des tests réels sur Internet et des simulations montrant des résultats satisfaisants.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.10 pp.2747-2762
Date de publication
2010/10/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.2747
Type de manuscrit
PAPER
Catégories
Ingénierie des données, systèmes d'information Web

Auteurs

Mots-clés

Table des matières