Desarrollado por | Archivo de Internet |
---|---|
Última versión | 3.2.0 (Enero 2014) |
Depositar | github.com/internetarchive/heritrix3 |
Escrito en | Java |
Medio ambiente | Linux / Windows |
Leer formatos | WARC ( en ) |
Formatos escritos | WARC ( en ) |
Tipo | Robot de indexación |
Licencia | Apache 2.0 |
Documentación | github.com/internetarchive/heritrix3/wiki |
Sitio web | Heritrix |
Heritrix es un rastreador web diseñado y utilizado por Internet Archive para el archivo web . Es un software gratuito programado en lenguaje Java . Se puede acceder a su interfaz principal desde un navegador web , pero también se puede utilizar opcionalmente una herramienta de interpretación de comandos para iniciar la indexación.
Heritrix fue desarrollado conjuntamente por Internet Archive y las Bibliotecas Nacionales Nórdicas en 2003. Su primera publicación oficial tuvo lugar enenero de 2004, y desde entonces ha sido mejorado continuamente por miembros de Internet Archive y terceros interesados.
Un número significativo de organizaciones y bibliotecas nacionales utilizan Heritrix, que incluyen:
Históricamente, Heritrix almacenaba los recursos que recopilaba en un archivo Arc , un formato que Internet Archive ha utilizado desde 1996 para almacenar sus archivos. Las versiones más nuevas tienen por defecto el formato WARC. Heritrix también se puede configurar para almacenar archivos en un formato de directorio similar al rastreador Wget , que nombra el directorio y el archivo de cada recurso después de su URL .
En el formato Arc , varios activos archivados se almacenan en un solo archivo, por lo que no tiene que lidiar con una gran cantidad de archivos pequeños. Un archivo consta de una secuencia de registros de URL, cada uno acompañado de un encabezado que contiene metadatos sobre cómo se solicitó el recurso, el encabezado HTTP y el código para la respuesta. El tamaño de un archivo Arc es de entre 100 y 600 megabytes .
Ejemplo:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>Heritrix incluye una herramienta de línea de comandos llamada arcreader que le permite extraer el contenido de un archivo Arc.
El siguiente comando enumera todas las URL y metadatos almacenados en el archivo Arc del ejemplo anterior:
arcreader IA-2006062.arcEl siguiente comando extrae el archivo hello.html de él, teniendo en cuenta el inicio de la grabación en el offset 140:
arcreader -o 140 -f dump IA-2006062.arcOtras herramientas:
Heritrix viene con varias herramientas de línea de comandos: