Lucene

Apache Lucene

Información
Desarrollado por Fundación Apache
Última versión 8.7.0 (3 de noviembre de 2020)
Depositar github.com/apache/lucene
Escrito en Java
Sistema de explotación Multiplataforma
Medio ambiente Multiplataforma
Tipo Motor de búsqueda
Licencia Licencia de Apache
Sitio web lucene.apache.org

Lucene es una biblioteca de código abierto escrita en Java que permite indexar y buscar texto. Se utiliza en algunos motores de búsqueda .

Es un proyecto de la fundación Apache disponible bajo la licencia Apache . También está disponible para los lenguajes Ruby , Perl , C ++ , PHP , C # , Python .

Histórico

Lucene es subido por primera vez por Doug Cutting en el sitio de SourceForge.net enMarzo de 2000. Luego se publica bajo la Licencia Pública General Reducida GNU . Su transferencia a Apache Jakarta se anuncia enOctubre de 2001.

El proyecto Lucene proviene del libro Lucene in Action (Lucene in action) publicado en diciembre de 2004 . Está escrito conjuntamente por Erik Hatcher, uno de los líderes de los proyectos de código abierto Ant , Lucene y Tapestry , y por Otis Gospodnetic, miembro activo del proyecto Apache Jakarta.

La 14 de febrero de 2005, Lucene está migrando al proyecto Apache Jakarta . La base del código fuente se convierte al controlador de versión SVN .

Lunes 12 de diciembre de 2005, Grant Ingersol presenta un estudio de caso en Java en ApacheCon US sobre el uso avanzado de componentes de Lucene, incluidos detalles técnicos sobre el procesamiento del lenguaje natural .

Hoy en día, Lucene se utiliza como motor de búsqueda de una gran cantidad de productos y sitios web en todo el mundo.

Cómo funciona Lucene

Indexación

Hasta la explosión de Internet , la clasificación decimal de Dewey era muy eficaz para categorizar objetos en una biblioteca. Sin embargo, en la Web, la masa de datos disponibles se ha vuelto tan gigantesca que ahora es necesario utilizar medios alternativos y más dinámicos para encontrar información.

En el corazón de todos los motores de búsqueda se encuentra un mecanismo de indexación automático  : procesar datos sin procesar una vez y proporcionarles múltiples enlaces altamente eficientes acelera la operación de búsqueda. El concepto es bastante similar al índice de terminología que generalmente se encuentra al final de un libro, lo que le permite encontrar rápidamente páginas que tratan un tema determinado.

Si necesita cubrir un campo grande de archivos o encontrar una cadena de caracteres específica en un solo archivo, no debe escanear cada archivo secuencialmente en busca de la frase dada. Porque cuanto mayor es el número de archivos, más demora la búsqueda de información . Es mejor establecer un índice de texto en un formato que permita una búsqueda rápida, lo que evita el método secuencial. Este proceso se llama indexación .

Investigar

La investigación es la acción de buscar palabras en un índice para encontrar referencias a documentos cuando aparecen. La calidad de una búsqueda se evalúa por el posicionamiento y la relevancia de los resultados. Sin embargo, hay otros factores que intervienen en una búsqueda. La velocidad es un factor determinante en el procesamiento de una gran cantidad de información. Asimismo, poder soportar consultas simples o complejas, interrogación de oraciones, caracteres, posicionamiento y clasificación de resultados son tan importantes como una sintaxis fácil de aprender para ingresar estas consultas.

Clases

Las siguientes secciones proporcionan una breve introducción a las clases principales que se utilizan para construir este motor de búsqueda.

Clases de indexación

Clases de investigación

Recursos

Herramientas

Proyectos relacionados

Todos estos proyectos son o han sido subproyectos de Apache Lucene y permiten la implementación de un motor de búsqueda.

Componentes de un motor de búsqueda

Notas y referencias

  1. LuceneTM Core News  " (consultado el 3 de diciembre de 2020 )
  2. La página de Lucene en SourceForge
  3. La sesión presentada en ApacheCon
  4. (in) Lista de aplicaciones que utilizan Lucene

Apéndices

Bibliografía

  • " Introducción a Apache Lucene: Construcción de sistemas de recuperación de texto completo de código abierto Java " por Koshi Sekiguti; Gijutsu-Hyohron Co, Ltd; ( ISBN  4774127809 )
  • " Lucene en acción " de Erik Hatcher y Otis Gospodnetić; Publicaciones Manning;diciembre de 2004; ( ISBN  1932394281 ) (en) [1]
  • Manfred Hardt, Dr. Fabian Theis: " Suchmaschinen entwickeln mit Apache Lucene "; Software y soporte Verlag, Frankfurt am Main, Alemania;Septiembre de 2004; ( ISBN  3935042450 )

Artículos relacionados

enlaces externos