Heritrix
Gelose | Tous les portails | Portail Medecine | Portail Biologie | Portail Biochimie | Portail Microbiologie | Portail Ecologie | Portail Botanique | Biologie cellulaire | Portail Zoologie | Science de la terre | Portail Eau |
Inscrivez votre site en haut de cette page Soumission direct par Allopass, obtenez 1 lien de qualite en haut de cette page Heritrix ainsi que sur la page des nouveaux sites inscrits pour seulement 20 euros!
|
| Heritrix
|
|
|---|---|
| Dernière version | 1.8.0 (le 5 mai 2006) |
| Environnement | Linux/Windows |
| Type | Robot d'indexation |
| Licence | GNU LGPL |
| Site web | Heritrix |
Heritrix est le robot d'indexation de l'Internet Archive qui a été spécialement conçu pour l'archivage web. Il est libre et a été écrit en langage Java. Son interface principale est accessible depuis un navigateur Web, et il y a un outils en invite de commande qui peut aussi être optionnelment utilisé pour la collecte.
Les caractéristiques d'Heritrix a été développé conjointement par l'Internet Archive et les Bibliothèques Nationales Nordiques en 2003. La première sortie officielle a été en Janvier 2004, et il a depuis été continuellement amélioré par les membres de l'Internet Archive et les tiers intéressés.
Sommaire |
[] Projets utilisant Heritrix
Un nombre important d'organisations et de bibliothèques nationales utilisent Heritrix, parmi lesquels :
[] Fichier Arc
Heritrix stocke les ressources du web dans un fichier Arc. Le format de fichier Arc est utilisé par l'Internet Archive depuis 1996 pour stocker les archives du web. Heritrix peut également être configurer pour stocker des fichiers dans un format de répertoire similaire au robot d'indexation Wget qui utilise l'URL du nom du répertoire et les noms de fichiers pour chaque ressource.
Un fichier Arc stocke de multiples ressources archivées dans un seul dossier dans l'intention de gérer un grand nombre de petits fichiers. Le fichier consiste en une séquence d'enregistrement d'URL comprenant un en-tête contenant une métadonnée expliquant comment la ressource a été demandée, suivi de l'en-tête HTTP, et de la réponse. Un fichier Arc s'étend de 100 à 600 Mo.
Exemple:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>
[] Outils pour le traitement de fichiers Arc
Heritrix inclu un outil en ligne de commande intitulé arcreader qui peut s'utiliser pour extraire du contenu d'un fichier Arc. La commande suivante extrait hello.html de l'exemple précédent en prenant en compte le début de l'enregistrement à l'offset 140 :
arcreader -o 140 -f dump IA-2006062.arc
[] Outils en ligne de commande
Heritrix est fourni avec plusieurs outils en ligne de commande :
- htmlextractor - montre le lien que Heritrix doit extraire pour un URL donné
- hoppath.pl - recrée le chemin des liens pour une URL spécifiée depuis une indexation complétée
- manifest_bundle.pl - met en paquets toutes les ressources référencées par le fichier manifeste du robot dans un fichier tar incompressé ou compressé
- cmdline-jmxclient - permet le contrôle en ligne de commande d'Heritrix
- arcreader - extrait du contenu d'un fichier Arc (voir au dessus)
[] Voir aussi
[] Références
- Michael Stack, IWAW 2005. "Update on Heritrix developpment". (PDF)
- Kristinn Sigurdsson, National and University Library of Iceland, IWAW 2005. "Incremental crawling with Heritrix". (PDF)
- Gordon Mohr, Internet Archive. IWAW 2004. "Heritrix: an open source Web Archiving Crawler". (PPT)