Nutch

Nutch Descripción de la imagen Nutch.png. Información
Desarrollado por Doug cortando
Última versión 2,4 (11 de octubre de 2019)
Depositar github.com/apache/nutch
Escrito en Java
Sistema de explotación Multiplataforma
Medio ambiente Windows , Mac OS X , GNU / Linux
Leer formatos WARC ( en )
Formatos escritos WARC ( en )
Tipo motor de búsqueda de código abierto
Licencia Licencia de Apache
Sitio web nutch.apache.org

Nutch es una iniciativa para construir un motor de búsqueda de código abierto . Utiliza Lucene como motor de búsqueda y biblioteca de indexación. Por otro lado, el robot recolector fue creado específicamente para este proyecto.

La arquitectura de Nutch es altamente modular y permite a los desarrolladores crear complementos para diferentes fases del proceso: recuperación de datos, análisis de documentos, investigación, etc.

Doug Cutting es el iniciador y coordinador de este proyecto.

Está completamente desarrollado en el lenguaje Java , pero los datos que manipula están en un formato de datos independiente de cualquier lenguaje de programación. EnJunio ​​de 2003 Se presentó una versión operativa de una demostración de Nutch en una base de datos que reúne 100 millones de documentos.

Histórico

CreativeCommons.org confía en Nutch

Creative Commons inauguró en 2004 una versión beta de su buscador que recorre la web en busca de texto, audio y video, indexando a esta fecha un millón de páginas; todo esto se puede reutilizar libremente bajo los términos de las licencias disponibles en su sitio web.

Su motor de búsqueda se basa en el Resource Description Framework (RDF) que utiliza el metalenguaje XML , estandarizado por el World Wide Web Consortium (W3C).

Esta versión coincide con la del navegador web Mozilla Firefox en la versión 1.0, lo que permite buscar contenido gratuito.

Nutch se une a Apache

En enero 2005, Nutch es un proyecto de dos años que fue organizado por Sourceforge y apoyado por su propia organización sin fines de lucro. Esta organización se fundó para proteger los derechos de autor del proyecto y poder conservar el derecho a cambiar la licencia. El equipo decidió que la licencia de Apache era la más apropiada para Nutch y que ya no necesitaban la ayuda de una organización externa. Los líderes y desarrolladores ahora cuentan con el apoyo de la Fundación Apache .

Después de cinco meses de incubación, Nutch se convierte en un subproyecto de Lucene .

Clasificación del motor

Publicado el 1 st  de junio de 2004, el estudio de Lyle Benedict compara los resultados de la famosa Google y su contraparte libre Nutch dentro de la página web de la Universidad Estatal de Oregón marco limitado sobre una base de 100 solicitudes. Por ejemplo, en puntajes que van de 0 a 10, donde 10 es el mejor puntaje, encontró 28 solicitudes para las cuales Nutch y Google obtuvieron el puntaje máximo .

Contribuciones

Las contribuciones se basan en el mérito y el karma . Los colaboradores deben suscribirse a una lista de correo para saber quién está haciendo qué y enviar un breve correo electrónico para que los demás sepan lo que van a hacer. Cuando se hace el trabajo, el fragmento de código se envía a la lista de correo (o se adjunta a un informe de error) para que cada colaborador pueda examinar su calidad y relevancia .

Los criterios de aceptación son:

Si todo es correcto, los desarrolladores insertan el fragmento de código en la base de datos fuente y pasa a formar parte de Nutch.

Usando Nutch

El gobierno de Quebec adopta a Nutch

En diciembre de 2006, el Gobierno de Quebec optó por Nutch como motor de búsqueda para localizar todos sus sitios de acuerdo con una preselección. Hasta la fecha, más de 400 sitios y 500.000 documentos están indexados .

La Universidad Estatal de Oregon se muda a Nutch

De Septiembre de 2004 a enero 2010, Oregon State University reemplazó su centro de investigación de Google con Nutch. Esto le ha permitido lograr importantes reducciones de costes y promover la transparencia de este motor de búsqueda. Esta reducción se ha estimado en $ 100,000 por año según el Open Source Lab .

Ver también

Bibliografía

Artículos relacionados

enlaces externos

Notas y referencias

  1. "  https://nutch.apache.org/index.html#11-october-2019-nutch-24-release  " (consultado el 11 de marzo de 2020 )
  2. https://creativecommons.org/press-releases/entry/5064
  3. [1] , Desde enero de 2010, la Oregon State University reutiliza Google Search Appliance.