Archivo de Internet | |
Servidores del sitio espejo guardado en la Bibliotheca Alexandrina | |
Creación | 1996 |
---|---|
Fundadores | Ver el tablero |
Forma jurídica | Organización sin ánimo de lucro |
Eslogan | Acceso universal a todo el conocimiento |
La oficina central | 300 Funston Avenue, Richmond District , San Francisco , California , EE. UU. |
Dirección | Julien masanes |
Actividad | Archivado y preservación web |
Productos | Archivo de arte de portada ( d ) |
Socios | Biblioteca Pública Digital de América |
Eficaz | 200 |
Sitio web | archive.org |
Cifra de negocio | 14.000.000 dólares estadounidenses (2015) |
Internet Archive (o IA ) es una organización sin fines de lucro dedicada al archivo web que también actúa como una biblioteca digital . Estos archivos electrónicos se componen de instantáneas (copias de páginas tomadas en diferentes momentos) de páginas web, software, películas, libros y grabaciones de audio.
Para garantizar la estabilidad y seguridad de los datos archivados, se mantiene un sitio espejo en funcionamiento en la Bibliotheca Alexandrina en Egipto . AI pone sus colecciones a disposición de investigadores, historiadores y académicos de forma gratuita. Ubicada en el distrito de Richmond , al sur del Presidio de San Francisco , es miembro de la American Library Association y está oficialmente reconocida como biblioteca por el estado de California .
El rastreador web utilizado por IA es Heritrix , software gratuito . El software gratuito de escaneo de libros es Scribe.
Internet Archive fue fundado en 1996 por Brewster Kahle . Debido a sus objetivos, la preservación del conocimiento humano y la accesibilidad de las colecciones para todos, los fundadores de IA comparan este proyecto con el anterior de la Biblioteca de Alejandría .
La Wayback Machine es la parte instantánea de la Web desarrollada por el Archivo de Internet . Wayback Machine fue creado por Brewster Kahle para almacenar e indexar cualquier cosa en la web. La Wayback Machine se actualiza con contenido de Alexa . Este servicio permite a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo: es el "índice tridimensional".
Las instantáneas están disponibles de seis a doce meses después de la captura. La frecuencia de las instantáneas varía, no se registran todas las actualizaciones del sitio web y se pueden observar intervalos de varias semanas.
En 2006, Wayback Machine contenía casi dos petabytes de datos. El volumen está creciendo a una tasa de 20 terabytes por mes, un aumento de dos tercios de los doce terabytes por mes que fue la tasa de crecimiento en 2003. Este crecimiento es mayor que la cantidad de texto contenida en las bibliotecas más importantes de la world. world, incluida la Biblioteca del Congreso . En 2009, Wayback Machine contenía casi tres petabytes de datos y su aumento fue de 100 terabytes por mes. Los datos se archivan en sistemas fabricados por Capricorne Technologies, racks Petabox.
El nombre " Wayback Machine " se refiere a episodios de The Rocky and Bullwinkle Show , donde el Sr. Peabody, un perro profesor y su asistente Sherman (una mascota humana), usan una máquina del tiempo llamada "WABAC Machine" para describir eventos históricos famosos.
En 2015, Rusia habría bloqueado por error todo el sitio de Wayback Machine .
Los usuarios que deseen archivar de forma permanente e inmediata sus datos pueden utilizar, mediante suscripción, el servicio Archive-It (en) IA. Los datos recopilados son indexados periódicamente por Wayback Machine . Endiciembre 2007, este servicio había creado más de 230 millones de URL para 466 colecciones públicas, incluidas agencias gubernamentales, universidades e instituciones culturales.
Ejemplo de organizaciones o instituciones que participan en Archive-It:
Además de los archivos web, los servicios de Internet Archive mantienen grandes colecciones de medios digitales que son de dominio público o tienen licencia para su redistribución, como las licencias Creative Commons . Los medios se organizan en colecciones por tipología (imágenes en movimiento, sonido, texto, etc.) y en subcolecciones según distintos criterios. Cada colección principal incluye una subcolección comunitaria , donde se pueden archivar las contribuciones del público en general.
Sus colecciones incluyen (desde 14 de noviembre de 2007):
Además de los largometrajes, la colección de videos de Internet Archive incluye noticias, cómics clásicos , propaganda a favor y en contra de la guerra, y más material efímero de los Archivos Prelinger, como comerciales, películas educativas e industriales y colecciones de películas de aficionados.
Ejemplos de colección:
Ejemplo de película francesa:
SonidosLa colección de audio se compone de música, audiolibros, transmisiones de noticias, programas de radio antiguos y una amplia variedad de otros archivos de audio. La subcolección Live Music Archive incluye 40.000 grabaciones de conciertos de artistas independientes, así como de artistas y conjuntos musicales más establecidos con reglas menos estrictas sobre la grabación de conciertos como Grateful Dead .
TextosEsta colección reúne textos del Proyecto Gutenberg , textos de varias bibliotecas de todo el mundo, así como una colección de documentos y notas de ARPANET . Con más de 7 millones de libros, Internet Archive es la segunda biblioteca de libros digitales de acceso abierto más grande del mundo después de Google Books. Todos los documentos digitalizados y puestos en línea por los usuarios de Internet o las instituciones se oerizan y convierten en archivos EPUB para lectores electrónicos o MOBI para Kindle y disfrutan de un archivo permanente en muchos servidores de todo el mundo (California, Egipto, China, Países Bajos). Medias, etc. ).
La Biblioteca Sainte-Geneviève es la primera biblioteca francesa que participa en el proyecto demarzo 2010. En Francia, la École des Ponts ParisTech (desdeAgosto 2012), el Instituto Nacional de Investigaciones Agropecuarias (desde enero 2015), Sciences Po Paris (desde junio 2015), la Biblioteca Sanitaria Interuniversitaria (desde enero 2018), la Biblioteca Universitaria de Lenguas y Civilizaciones (desde septiembre de 2019) y las Bibliotecas de la École normale supérieure (desde diciembre de 2020) también participan.
Internet Archive es miembro de Open Content Alliance (en) y opera la Open Library donde más de 200,000 libros digitalizados en el dominio público están disponibles en línea e imprimibles. El sistema de escaneo de libros Scribe sirve para este propósito.
Durante la pandemia de coronavirus, Internet Archive pone a disposición de los estadounidenses libros con derechos de autor para que puedan estudiar durante el encierro. Varias editoriales no están de acuerdo y el Archivo de Internet está retirando el acceso a los libros en cuestión en16 de junio de 2020. A pesar de todo, los editores están demandando al sitio y está programada una prueba para 2021.
A finales de 2002, Internet Archive borró varios sitios críticos de Scientology identificados por Wayback Machine. El mensaje de error indica que fue el resultado de una "solicitud del propietario del sitio". Más tarde se aclaró que los abogados de la Iglesia de la Cienciología habían exigido la eliminación, sin ningún motivo legal, y que los propietarios de estos sitios no querían que se eliminaran sus páginas.
En octubre de 2004, en un caso llamado " Telewizja Polska SA contra Echostar Satellite ", un abogado intenta utilizar los archivos de Wayback Machine como fuente de evidencia admisible, probablemente por primera vez.
Telewizja Polska es el proveedor de TVP Polonia y EchoStar que opera Dish Network . Antes del juicio, EchoStar dijo que tenía la intención de usar instantáneas de Wayback Machine como evidencia del contenido pasado del sitio de Telewizja Polska. Telewizja Polska presentó una moción in limine (in) para eliminar las tomas de los justificantes de rumores y fuentes no autenticadas, pero el juez Arlander Keys rechazó las afirmaciones de Telewizja Polska y se negó a excluir las pruebas en el juicio. Sin embargo, en el momento del juicio, el juez del Tribunal de Distrito Ronald Guzmán en primera instancia anuló las conclusiones del juez Keys y concluyó que ni el Archivo de Internet ni las páginas subyacentes (es decir, el sitio de Telewizja Polska) no eran admisibles como prueba. El juez Guzmán dictaminó que imprimir una página web no era prueba de autenticación de la información.
Defensores de la atención médica, Inc.En 2003, Healthcare Advocates, Inc. fue acusado de una demanda por infracción de marca registrada. La acusación intentó utilizar material de Internet archivado accesible a través del Archivo de Internet. Después de perder esta demanda, la compañía intentó demandar a Internet Archive por violar la DMCA y la Ley de Abuso y Fraude Informático . Argumentaron que, dado que instalaron un archivo robots.txt en su sitio web, el robot de IA debería haberlo evitado. La primera denuncia se presentó el26 de junio de 2003y agregaron el archivo robots.txt, el 8 de julio de 2003, las páginas que se retirarán retroactivamente. El juicio se resolvió extrajudicialmente.
Robots.txt se utiliza como parte del Estándar de exclusión de robots , un estándar voluntario que IA aplica y que prohíbe a los robots indexar ciertas páginas marcadas por el creador como fuera de los límites. Como resultado, la IA ha eliminado varios sitios web que ahora son inaccesibles a través de Wayback Machine. A veces, esto se debe a que un nuevo propietario colocó un archivo robots.txt que prohíbe la indexación del sitio. Los administradores dicen que están trabajando en un sistema que permitirá el acceso a archivos anteriores y excluirá los elementos creados después de agregar el archivo.
En 2006, IA aplicó la regla Robots.txt de forma retroactiva. Si un sitio bloquea IA, como Healthcare Advocates, también se eliminan todas las páginas previamente archivadas de ese dominio. En el caso de sitios bloqueados, solo se archiva el archivo robots.txt. Esta práctica parece ser perjudicial para los investigadores que acceden a la información disponible en el pasado.
Sin embargo, IA también afirma que “a veces el propietario de un sitio web nos contacta directamente y nos pide que dejemos de indexar o archivar un sitio. Cumplimos con estas solicitudes. También explicaron que "Internet Archive no está interesado en preservar o proporcionar acceso a sitios web u otro material de Internet propiedad de personas que no querrían que se archivara su material" .
Ley de PatentesLa Oficina de Patentes de los Estados Unidos y, sujeto a que se cumplan requisitos adicionales (por ejemplo, proporcionar una declaración oficial del archivero), la Oficina de Patentes Europea aceptará una fecha del Archivo de Internet como prueba de la publicación de una página web. Estas fechas se utilizan para determinar si una página web está disponible antes, por ejemplo, de la fecha de presentación de una solicitud de patente.
En noviembre de 2005, la descarga gratuita de los conciertos de Grateful Dead ha sido eliminada del sitio. John Perry Barlow identificó a Bob Weir , Mickey Hart y Bill Kreutzmann como los instigadores de este cambio. La30 de noviembre, una publicación en el foro de Brewster Kahle resumió lo que parece ser el compromiso alcanzado entre los miembros de la banda. Los conciertos en vivo se pueden descargar o escuchar, y las grabaciones estarán disponibles solo para escuchar. Desde entonces se han añadido conciertos.
Concha de SuzanneLa 12 de diciembre de 2005, la activista Suzanne Shell (en) reclamó la suma de 100.000 dólares por el archivo de su sitio “profane-justice.org” entre 1999 y 2004. El20 de enero de 2006, The Internet Archive presentó una acción de sentencia declarativa en el Distrito del Norte de California, solicitando al tribunal que determinara que IA no infringió los derechos de autor de Shell.
Shell respondió y presentó otra queja contra IA por archivar su sitio, alegando violación de sus términos de servicio. La13 de febrero de 2007, un juez de distrito de Colorado desestimó todos los reclamos excepto el incumplimiento de contrato.
La 25 de abril de 2007, IA y Shell han anunciado conjuntamente la solución de su disputa. IA dijo: “Internet Archive no tiene interés en poner información en la Wayback Machine de las personas que no quieren ver su contenido web archivado. Reconocemos que M me Shell tiene derechos de autor válidos y aplicables en su sitio y lamentamos que el registro de su sitio en Wayback Machine haya dado lugar a este litigio. Estamos felices de tener este caso detrás de nosotros. " Shell dijo: " Respeto el objetivo y el valor histórico del Archivo de Internet. Nunca tuve la intención de interferir con este objetivo ni causar ningún daño. "
Situación de los derechos de autor en EuropaEn Europa, Wayback Machine a veces puede violar las leyes de derechos de autor. Solo el creador puede decidir dónde se publica o reproduce su contenido, las páginas deben eliminarse de los archivos a petición del creador.
En Europa, European Internet Archive es un competidor.