Heritrix

Gelose | Tous les portails | Portail Medecine | Portail Biologie | Portail Biochimie | Portail Microbiologie | Portail Ecologie | Portail Botanique | Biologie cellulaire | Portail Zoologie | Science de la terre | Portail Eau |


 Inscrivez votre site en haut de cette page Soumission direct par Allopass, obtenez 1 lien de qualite en haut de cette page Heritrix ainsi que sur la page des nouveaux sites inscrits pour seulement 20 euros!


Heritrix


Dernière version 1.8.0 (le 5 mai 2006)
Environnement Linux/Windows
Type Robot d'indexation
Licence GNU LGPL
Site web Heritrix

Heritrix est le robot d'indexation de l'Internet Archive qui a été spécialement conçu pour l'archivage web. Il est libre et a été écrit en langage Java. Son interface principale est accessible depuis un navigateur Web, et il y a un outils en invite de commande qui peut aussi être optionnelment utilisé pour la collecte.

Les caractéristiques d'Heritrix a été développé conjointement par l'Internet Archive et les Bibliothèques Nationales Nordiques en 2003. La première sortie officielle a été en Janvier 2004, et il a depuis été continuellement amélioré par les membres de l'Internet Archive et les tiers intéressés.

Sommaire

[] Projets utilisant Heritrix

Un nombre important d'organisations et de bibliothèques nationales utilisent Heritrix, parmi lesquels :

[] Fichier Arc

Heritrix stocke les ressources du web dans un fichier Arc. Le format de fichier Arc est utilisé par l'Internet Archive depuis 1996 pour stocker les archives du web. Heritrix peut également être configurer pour stocker des fichiers dans un format de répertoire similaire au robot d'indexation Wget qui utilise l'URL du nom du répertoire et les noms de fichiers pour chaque ressource.

Un fichier Arc stocke de multiples ressources archivées dans un seul dossier dans l'intention de gérer un grand nombre de petits fichiers. Le fichier consiste en une séquence d'enregistrement d'URL comprenant un en-tête contenant une métadonnée expliquant comment la ressource a été demandée, suivi de l'en-tête HTTP, et de la réponse. Un fichier Arc s'étend de 100 à 600 Mo.

Exemple:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

[] Outils pour le traitement de fichiers Arc

Heritrix inclu un outil en ligne de commande intitulé arcreader qui peut s'utiliser pour extraire du contenu d'un fichier Arc. La commande suivante extrait hello.html de l'exemple précédent en prenant en compte le début de l'enregistrement à l'offset 140 :

arcreader -o 140 -f dump IA-2006062.arc

[] Outils en ligne de commande

Heritrix est fourni avec plusieurs outils en ligne de commande :

  • htmlextractor - montre le lien que Heritrix doit extraire pour un URL donné
  • hoppath.pl - recrée le chemin des liens pour une URL spécifiée depuis une indexation complétée
  • manifest_bundle.pl - met en paquets toutes les ressources référencées par le fichier manifeste du robot dans un fichier tar incompressé ou compressé
  • cmdline-jmxclient - permet le contrôle en ligne de commande d'Heritrix
  • arcreader - extrait du contenu d'un fichier Arc (voir au dessus)

[] Voir aussi

[] Références

[] Liens externes

Heritrix