Weka (IT)

Weka Descripción de la imagen Weka (software) logo.png. Descripción de esta imagen, también comentada a continuación Weka 3.5.5 con la ventana del explorador abierta con datos de iris de la Universidad de California en Irvine . Información
Desarrollado por Universidad de Waikato
Última versión 3.8.1 (23 de enero de 2017)
Versión avanzada 3.9.1 (19 de diciembre de 2016)
Depositar svn.cms.waikato.ac.nz/svn/weka
Escrito en Java
Sistema de explotación Microsoft Windows y multiplataforma
Medio ambiente Plataforma Java
Leer formatos Formato de archivo de relación de atributos ( d )
Idiomas Plurilingüe
Tipo Estructura del software de aprendizaje automático ( d )
Licencia Licencia pública general GNU versión 3
Sitio web www.cs.waikato.ac.nz/ml/weka/

Weka ( acrónimo de Waikato Environment for Knowledge Analysis , en francés: " Waikato Environment for Knowledge Analysis ") es un paquete de software de aprendizaje automático escrito en Java y desarrollado en la Universidad de Waikato en Nueva Zelanda . Weka es un software gratuito disponible bajo la Licencia Pública General GNU ( GPL ).

Descripción

El espacio de trabajo de Weka contiene una colección de herramientas de visualización y algoritmos para el análisis de datos y el modelado predictivo , combinados con una interfaz gráfica para acceder fácilmente a su funcionalidad. La versión de Weka original "no Java" era un front-end en Tcl / Tk para modelar algoritmos (en su mayoría terceros) implementados en otros lenguajes de programación, complementado con un preprocesador comercial de datos en C y un sistema basado en makefile para iniciar la máquina. experiencias de aprendizaje. Esta versión original fue pensada principalmente como una herramienta para analizar datos agrícolas, pero la versión más reciente completamente basada en Java (Weka 3), cuyo desarrollo comenzó en 1997, ahora se usa en muchas áreas de aplicación diferentes, especialmente para educación e investigación. . Las principales fortalezas de Weka son que:

Weka admite varias herramientas de minería de datos estándar y, en particular, preprocesadores de datos, agrupación de datos , clasificadores estadísticos , analizadores de regresión , herramientas de visualización y herramientas de análisis discriminante . Todas las técnicas de Weka se basan en el supuesto de que los datos están disponibles en un solo archivo plano o relación binaria , donde cada tipo de datos se describe mediante un número fijo de atributos (atributos ordinarios, numéricos o simbólicos, pero algunos otros). también se admiten tipos de atributos). Weka proporciona acceso a bases de datos SQL mediante Java Database Connectivity (JDBC) y puede procesar el resultado de una consulta SQL. No es capaz de minar datos multirrelacionales, pero hay software de terceros disponible para convertir una colección de tablas de bases de datos vinculadas en una sola tabla adecuada para que Weka procese. Otra área importante que actualmente no está cubierta por los algoritmos incluidos en la distribución de Weka es el modelado de secuencias.

La interfaz principal de Weka es el explorador , pero se puede lograr prácticamente la misma funcionalidad a través de la interfaz de "flujo de conocimiento" de cada componente y desde la línea de comandos . También está el experimentador, que permite la comparación sistemática (taxonómica) del rendimiento predictivo de los algoritmos de aprendizaje automático de Weka en una colección de conjuntos de datos.

La interfaz del explorador tiene varias pestañas que brindan acceso a los componentes principales del espacio de trabajo. La pestaña del preprocesador tiene varias funciones para importar datos de bases de datos , un archivo CSV y preprocesar estos datos con un algoritmo llamado filtrado . Estos filtros se pueden utilizar para transformar datos (por ejemplo, transformar atributos numéricos reales en atributos discretos) y hacer posible eliminar instancias y atributos de acuerdo con criterios específicos. La pestaña de clasificación permite al usuario aplicar clasificaciones y algoritmos de regresión (llamados indistintamente "  clasificadores  " en Weka) al conjunto de datos resultante, para estimar la precisión del modelo predictivo y ver predicciones erróneas, curvas ROC ,  etc. o el modelo en sí (si el modelo está sujeto a visualización, como un árbol de decisión ). La pestaña Asociado proporciona acceso a los aprendizajes mediante reglas de asociación que intentan identificar todas las relaciones importantes entre los atributos en los datos. La pestaña Cluster da acceso a las técnicas de agrupamiento de Weka, como el algoritmo k-means . También hay una implementación del algoritmo de maximización de expectativas para entrenar una mezcla de distribuciones normales . La pestaña "  Seleccionar atributos  " proporciona algoritmos para identificar los atributos más predictivos en un conjunto de datos. La pestaña final, "  Visualizar  ", muestra una matriz de nubes de puntos , donde las nubes de puntos individuales se pueden seleccionar y ampliar, y analizar más a fondo utilizando varios operadores de selección.

Histórico

Notas y referencias

  1. (en) Ian H. Witten, Eibe Frank y Mark A. Hall, minería de datos: prácticas herramientas y la tecnología de la máquina de aprendizaje , 3 ª edición, Morgan Kaufmann, 2011 ( ISBN  978-0-1237-4856-0 ) , 629 páginas [ presentación en línea ]
  2. (en) G. Holmes, A. Donkin e IH Witten, "  Weka: A machine learning workbench  " , Segunda conferencia de Proc de Australia y Nueva Zelanda sobre sistemas de información inteligentes, Brisbane, Australia ,1994(consultado el 25 de junio de 2007 ) [PDF]
  3. (en) SR Garner, SJ Cunningham, G. Holmes, CG Nevill-Manning e IH Witten, "La  aplicación del banco de trabajo de aprendizaje automático tiene: Experiencia con bases de datos agrícolas  " , Taller de práctica de aprendizaje automático de Proc, Conferencia de aprendizaje automático, Tahoe City, CA, EE . UU. ,1995(consultado el 25 de junio de 2007 ) ,pág.  14-21[PDF]
  4. (en) P. Reutemann, Pfahringer B. y E. Frank, "  Proper: A Toolbox for Learning from Relational Data with Propositional and Multi-Instance Learners  " , XVII Conferencia Conjunta Australiana sobre Inteligencia Artificial (AI2004) , Springer-Verlag,2004(consultado el 25 de junio de 2007 )
  5. (en) Ian H. Witten, Eibe Frank, Len Trigg, Mark Hall, Geoffrey Holmes y Sally Jo Cunningham, "  Weka: Herramientas y técnicas prácticas de aprendizaje automático con implementaciones de Java  " , Actas del taller ICONIP / ANZIIS / ANNES'99 sobre ingeniería del conocimiento emergente y sistemas de información basados ​​en conexionistas ,1999(consultado el 26 de junio de 2007 ) ,pág.  192–196[PDF]
  6. (in) Ganador del premio SIGKDD Data Mining and Knowledge Discovery Service Award ... - Gregory Piatetsky-Shapiro, KDnuggets, 28 de junio de 2005
(fr) Este artículo está tomado parcial o totalmente del artículo de Wikipedia en inglés titulado Weka (aprendizaje automático)  " ( consulte la lista de autores ) .

Apéndices

Artículo relacionado

enlaces externos

Ejemplos de aplicaciones