Heritrix

Heritrix Descripción de la imagen logo.png de Heritrix. Descripción de la imagen Heritrix-screenshot.png. Información
Desarrollado por Archivo de Internet
Última versión 3.2.0 (Enero 2014)
Depositar github.com/internetarchive/heritrix3
Escrito en Java
Medio ambiente Linux / Windows
Leer formatos WARC ( en )
Formatos escritos WARC ( en )
Tipo Robot de indexación
Licencia Apache 2.0
Documentación github.com/internetarchive/heritrix3/wiki
Sitio web Heritrix

Heritrix es un rastreador web diseñado y utilizado por Internet Archive para el archivo web . Es un software gratuito programado en lenguaje Java . Se puede acceder a su interfaz principal desde un navegador web , pero también se puede utilizar opcionalmente una herramienta de interpretación de comandos para iniciar la indexación.

Heritrix fue desarrollado conjuntamente por Internet Archive y las Bibliotecas Nacionales Nórdicas en 2003. Su primera publicación oficial tuvo lugar enenero de 2004, y desde entonces ha sido mejorado continuamente por miembros de Internet Archive y terceros interesados.

Proyectos que utilizan Heritrix

Un número significativo de organizaciones y bibliotecas nacionales utilizan Heritrix, que incluyen:

Archivo de arco

Históricamente, Heritrix almacenaba los recursos que recopilaba en un archivo Arc , un formato que Internet Archive ha utilizado desde 1996 para almacenar sus archivos. Las versiones más nuevas tienen por defecto el formato WARC. Heritrix también se puede configurar para almacenar archivos en un formato de directorio similar al rastreador Wget , que nombra el directorio y el archivo de cada recurso después de su URL .

En el formato Arc , varios activos archivados se almacenan en un solo archivo, por lo que no tiene que lidiar con una gran cantidad de archivos pequeños. Un archivo consta de una secuencia de registros de URL, cada uno acompañado de un encabezado que contiene metadatos sobre cómo se solicitó el recurso, el encabezado HTTP y el código para la respuesta. El tamaño de un archivo Arc es de entre 100 y 600 megabytes .

Ejemplo:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>

Herramientas para procesar archivos Arc

Heritrix incluye una herramienta de línea de comandos llamada arcreader que le permite extraer el contenido de un archivo Arc.

El siguiente comando enumera todas las URL y metadatos almacenados en el archivo Arc del ejemplo anterior:

arcreader IA-2006062.arc

El siguiente comando extrae el archivo hello.html de él, teniendo en cuenta el inicio de la grabación en el offset 140:

arcreader -o 140 -f dump IA-2006062.arc

Otras herramientas:

Herramientas de línea de comandos

Heritrix viene con varias herramientas de línea de comandos:

Ver también

Artículos relacionados

Referencias

enlaces externos