Árbol de decisión (aprendizaje)

El árbol de decisiones de aprendizaje es un método basado en el uso de un árbol de decisiones como modelo predictivo. Se utiliza en particular en la minería de datos y en el aprendizaje automático .

En estas estructuras de árbol, las hojas representan los valores de la variable objetivo y las ramas corresponden a combinaciones de variables de entrada que conducen a estos valores. En el análisis de decisiones, se puede utilizar un árbol de decisiones para representar explícitamente las decisiones tomadas y los procesos que conducen a ellas. En el aprendizaje y la minería de datos, un árbol de decisiones describe los datos pero no las decisiones en sí, el árbol se utilizaría como punto de partida para el proceso de decisión.

Es una técnica de aprendizaje supervisado : utilizamos un conjunto de datos para los que conocemos el valor de la variable objetivo para construir el árbol (los llamados datos etiquetados), luego extrapolamos los resultados al conjunto de datos de prueba. Los árboles de decisión se encuentran entre los algoritmos más populares en el aprendizaje automático .

General

El aprendizaje del árbol de decisiones es un método clásico en el aprendizaje automático . Su propósito es crear un modelo que predice el valor de una variable objetivo a partir del valor de varias variables de entrada.

Una de las variables de entrada se selecciona en cada nodo interior (o nodo interno que no es terminal) del árbol de acuerdo con un método que depende del algoritmo y que se discutirá más adelante. Cada borde de un nodo secundario corresponde a un conjunto de valores de una variable de entrada, de modo que el conjunto de bordes de los nodos secundarios cubre todos los valores posibles de la variable de entrada.

Cada hoja (o nodo terminal del árbol) representa un valor de la variable objetivo o una distribución de probabilidad de los diversos valores posibles de la variable objetivo. La combinación de los valores de las variables de entrada está representada por la ruta desde la raíz hasta la hoja.

El árbol generalmente se construye separando el conjunto de datos en subconjuntos según el valor de una característica de entrada. Este proceso se repite en cada subconjunto obtenido de forma recursiva, por lo que es una partición recursiva.

La recursividad se completa en un nodo cuando todos los subconjuntos tienen el mismo valor de la característica de destino o cuando la separación ya no mejora la predicción. Este proceso se denomina inducción de árboles de decisión de arriba hacia abajo (TDIDT), es un algoritmo codicioso ya que buscamos en cada nodo del árbol el reparto óptimo, con el fin de obtener el mejor reparto posible en todo el árbol de decisión. Esta es la estrategia más común para aprender árboles de decisiones a partir de datos.

En la minería de datos, los árboles de decisión pueden ayudar en la descripción, categorización o generalización de un conjunto de datos fijo.

El conjunto de entrenamiento generalmente se proporciona en forma de registros del tipo:

$({\ textbf {x}}, Y) = (x_ {1}, x_ {2}, x_ {3}, ..., x_ {k}, Y)$

La variable designa la variable objetivo que se busca predecir, clasificar o generalizar. El vector está formado por variables de entrada, etc. que se utilizan para este propósito. $Y$ ${\ Displaystyle {\ textbf {x}}.}$ $x_ {1}, x_ {2}, x_ {3}$

Tipos

Hay dos tipos principales de árboles de decisión en la minería de datos:

Los árboles de clasificación ( árbol de clasificación ) predicen a qué clase pertenece la variable objetivo, en este caso la predicción es una etiqueta de clase,

Los árboles de regresión ( árbol de regresión ) predicen una cantidad real (por ejemplo, el precio de una casa o la duración de la estadía de un paciente en un hospital), en este caso la predicción es un valor numérico.

El término Análisis de árbol de clasificación y regresión ( CART , después del acrónimo) es un término genérico que hace referencia a los procedimientos previamente descritos e introducidos por Breiman et al.Los árboles utilizados en el caso de regresión y en el caso de clasificación presentan similitudes pero también diferencias , especialmente en lo que respecta al procedimiento utilizado para determinar las separaciones de ramas.

Construyendo un árbol de decisiones

El aprendizaje del árbol de decisiones consiste en construir un árbol a partir de un conjunto de aprendizaje formado por tuplas etiquetadas. Un árbol de decisión se puede describir como un diagrama de flujo de datos (o diagrama de flujo ) donde cada nodo interno describe una prueba en una variable de aprendizaje, cada rama representa un resultado de prueba y cada hoja contiene el valor de la variable objetivo. (Una etiqueta de clase para árboles de clasificación, un valor numérico para árboles de regresión).

Criterio de segmentación

Por lo general, los algoritmos para construir los árboles de decisión se construyen dividiendo el árbol desde la parte superior hasta las hojas eligiendo en cada paso una variable de entrada que logra la mejor distribución del conjunto de objetos, como se describió anteriormente. Para elegir la variable de separación en un nodo, los algoritmos prueban las diferentes variables de entrada posibles y seleccionan la que maximiza un criterio dado.

Caso de árboles de clasificación

En el caso de los árboles de clasificación, este es un problema de clasificación automática . El criterio de evaluación de la partición caracteriza la homogeneidad (o la ganancia en homogeneidad) de los subconjuntos obtenidos por división del conjunto. Estas métricas se aplican a cada subconjunto candidato y los resultados se combinan (por ejemplo, promediados) para producir una medida de la calidad de la separación.

Existe una gran cantidad de tales criterios, los más utilizados son la entropía de Shannon , el índice de diversidad de Gini y sus variantes.

Índice de diversidad de Gini: utilizado por el algoritmo CART , mide la frecuencia con la que un elemento aleatorio en el conjunto se clasificaría erróneamente si su etiqueta se eligiera al azar de acuerdo con la distribución de las etiquetas en el subconjunto. El índice de diversidad de Gini se puede calcular sumando la probabilidad de que se elija cada elemento, multiplicada por la probabilidad de que esté mal clasificado. Alcanza su valor mínimo (cero) cuando todos los elementos del conjunto están en la misma clase de la variable objetivo. Prácticamente, si asumimos que la clase toma un valor en el conjunto , y si denota la fracción de los elementos del conjunto con la etiqueta en el conjunto, tendremos: ${\ Displaystyle {1,2, ..., m}.}$ $f_ {i}$ $I$

$I _ {{G}} (f) = \ sum _ {{i = 1}} ^ {{m}} f_ {i} (1-f_ {i}) = \ sum _ {{i = 1}} ^ {{m}} (f_ {i} - {f_ {i}} ^ {2}) = \ sum _ {{i = 1}} ^ {m} f_ {i} - \ sum _ {{i = 1}} ^ {{m}} {f_ {i}} ^ {2} = 1- \ sum _ {{i = 1}} ^ {{m}} {f_ {i}} ^ {{2}}$

Ganancia de información : utilizada por los algoritmos ID3 y C4.5 , la ganancia de información se basa en el concepto de entropía de Shannon en la teoría de la información . La entropía es una medida del desorden en un conjunto de datos y se usa para elegir el valor para maximizar la ganancia de información. Utilizando las mismas notaciones que para el índice de diversidad de Gini, obtenemos la siguiente fórmula:

$I _ {{E}} (f) = - \ sum _ {{i = 1}} ^ {{m}} f_ {i} \ log _ {2} ^ {{}} f_ {i}$

Caso de árboles de regresión

En el caso de los árboles de regresión , se puede aplicar el mismo esquema de separación, pero en lugar de minimizar la tasa de error de clasificación, buscamos maximizar la varianza entre clases (para tener subconjuntos cuyos valores de la variable objetivo estén tan dispersos como posible). En general, el criterio utiliza la prueba de chi-cuadrado .

Observaciones

Ciertos criterios permiten tener en cuenta el hecho de que la variable objetivo toma valores ordenados, utilizando medidas o heurísticas adecuadas.

Cada conjunto de valores de la variable de segmentación produce un nodo hijo. Los algoritmos de aprendizaje pueden diferir en el número de nodos hijos producidos: algunos (como CART ) producen sistemáticamente árboles binarios y, por lo tanto, buscan la partición binaria que optimiza el criterio de segmentación. Otros (como CHAID ) buscan hacer las agrupaciones más relevantes en base a criterios estadísticos. Dependiendo de la técnica obtendremos árboles más o menos anchos. Para que el método sea eficaz, se debe tener cuidado de no dividir demasiado los datos para no producir grupos de personal demasiado reducidos, que no se corresponden con ninguna realidad estadística.

Tratamiento de variables continuas

En el caso de las variables de segmentación continua, el criterio de segmentación elegido debe ser el adecuado. En general, los datos se ordenan según la variable a procesar, luego se prueban los diferentes puntos de corte posibles evaluando el criterio para cada caso, el punto de corte óptimo será el que maximice el criterio de segmentación.

Definir el tamaño del árbol

En la práctica, no siempre es deseable construir un árbol cuyas hojas correspondan a subconjuntos perfectamente homogéneos desde el punto de vista de la variable objetivo. De hecho, la formación se realiza sobre una muestra que se espera sea representativa de una población. El desafío de cualquier técnica de aprendizaje es capturar información útil sobre la estructura estadística de la población, excluyendo las características específicas del conjunto de datos estudiado. Cuanto más complejo es el modelo (cuanto más alto es el árbol, más ramas tiene, más hojas tiene), más corremos el riesgo de que este modelo no se pueda extrapolar a nuevos datos. Es decir, dar cuenta. de la realidad que se busca aprehender.

En particular, en el caso extremo en el que el árbol tiene tantas hojas como individuos hay en la población (de registros en el conjunto de datos), el árbol no comete ningún error en esta muestra ya que combina todas sus características, pero no puede ser generalizado a otra muestra. Este problema, llamado sobreentrenamiento o rebasamiento ( overfitting ), es un tema clásico de aprendizaje automático y minería de datos.

Por lo tanto, buscamos construir un árbol lo más pequeño posible al tiempo que garantizamos el mejor rendimiento posible. Siguiendo el principio de parsimonia , cuanto más pequeño sea un árbol, más estable será en sus previsiones futuras. Es necesario hacer un compromiso entre rendimiento y complejidad en los modelos utilizados. Para un rendimiento comparable, siempre preferiremos el modelo más simple, si queremos poder utilizar este modelo en nuevas muestras.

El problema del sobreajuste de modelos

Para realizar el arbitraje de rendimiento / complejidad de los modelos utilizados, el rendimiento de uno o más modelos se evalúa sobre los datos utilizados para su construcción (las muestras de entrenamiento), pero también sobre una (o más) muestras de validación. : datos etiquetados disponibles pero que voluntariamente se decide no utilizar en la construcción de los modelos.

Estos datos se tratan como los datos de prueba, la estabilidad del rendimiento de los modelos en estos dos tipos de muestra permitirá juzgar su sobreajuste y por lo tanto su capacidad para ser utilizados con un riesgo controlado de error en condiciones reales donde los datos no se conoce de antemano.

En el gráfico opuesto, observamos la evolución del error de ajuste de un árbol de decisión en función del número de hojas del árbol (que aquí mide la complejidad). Observamos que si el error disminuye constantemente en la muestra de aprendizaje, a partir de un cierto nivel de complejidad, el modelo se aleja de la realidad, una realidad que buscamos estimar en la muestra de validación (denominada muestra de prueba en el gráfico). .

En el caso de los árboles de decisión, se han considerado varios tipos de soluciones algorítmicas para intentar evitar en la medida de lo posible el sobreaprendizaje de los modelos: las técnicas de pre o post poda de árboles.

Algunas teorías estadísticas buscan encontrar el óptimo entre el error cometido en la muestra de entrenamiento y el cometido en la muestra de prueba. La teoría de Minimización de Riesgo Estructurado de Vapnik-Chervonenkis (o SRM), utiliza una variable llamada dimensión VC, para determinar el óptimo de un modelo. Por tanto, se puede utilizar para generar modelos que aseguren el mejor compromiso entre calidad y robustez del modelo.

Estas soluciones algorítmicas son complementarias a los análisis comparativos de rendimiento y estabilidad realizados en las muestras de entrenamiento y validación.

Poda previa

La primera estrategia que se puede utilizar para evitar el sobreaprendizaje de árboles de decisión consiste en proponer criterios de parada durante la fase de expansión. Este es el principio de la poda previa. Cuando el tamaño del grupo es demasiado pequeño, o cuando la homogeneidad de un subconjunto ha alcanzado un nivel suficiente, se considera que ya no es necesario separar la muestra. Otro criterio que se encuentra a menudo en este contexto es el uso de una prueba estadística para evaluar si la segmentación introduce una entrada significativa de información para la predicción de la variable objetivo.

Post-poda

La segunda estrategia consiste en construir el árbol en dos etapas: primero producimos el árbol cuyas hojas son lo más homogéneas posible en una fase de expansión, utilizando una primera fracción de la muestra de datos (muestra d 'aprendizaje que no debe confundirse con la totalidad de la muestra, llamada en inglés conjunto de cultivo para eliminar la ambigüedad), luego el árbol se reduce, confiando en otra fracción de los datos para optimizar el rendimiento del árbol es la fase posterior a la poda. Dependiendo del caso, esta segunda parte de los datos se designa con el término muestra de validación o muestra de prueba, lo que introduce confusión con la muestra utilizada para medir el desempeño de los modelos. El término muestra de poda se utiliza para designarlo sin ambigüedad, es la traducción directa del nombre conjunto de poda en inglés .

Problema de datos incompletos

Los datos disponibles suelen estar incompletos, en el sentido de que solo una parte de las variables de entrada están disponibles para un registro. En este caso, son posibles varias posibilidades:

Ignórelos: esto solo es posible si la muestra de datos es lo suficientemente grande como para eliminar individuos (es decir, filas de registros) del conjunto de datos, y si está seguro de que cuando el árbol de decisiones se use en la práctica, todos los datos seguirán estando disponibles para todos. individuos.

Reemplazarlos por un valor calculado que se considere adecuado (hablamos de imputación de valores perdidos): esta técnica se utiliza en ocasiones en estadística pero más allá de problemas puramente matemáticos, es cuestionable desde un punto de vista metodológico.

Utilizar variables sustitutivas: consiste, para un individuo al que le falten datos para una variable seleccionada por el árbol como discriminante, utilizar la variable que entre el conjunto de variables disponibles en la base de datos produce localmente las hojas. producido por la variable cuyos datos faltan, esta variable se llama sustituto. Si a un individuo le falta un valor para la variable inicial, pero también para la variable sustituta, se puede utilizar una segunda variable sustituta. Y así sucesivamente, hasta el límite de un criterio de calidad del suplente. Esta técnica tiene la ventaja de aprovechar toda la información disponible (por lo tanto, es muy útil cuando esta información es compleja de recuperar) para cada individuo.

Asignar la conclusión a cada hoja

En el caso de árboles de clasificación, la regla de asignación debe especificarse en las hojas una vez construido el árbol. Si las hojas son homogéneas, no hay ambigüedad. De no ser así, una regla sencilla es decidir la clase de la hoja según la clase mayoritaria, la que está más representada.

Esta técnica muy simple es óptima en el caso de que los datos provengan de una selección aleatoria no sesgada en la población; la matriz de costos de asignación incorrecta es unitaria (simétrica): asignación adecuada a costo cero y asignación incorrecta de costos 1 independientemente del caso. Fuera de este marco, la regla de la mayoría no está necesariamente justificada, pero es fácil de usar en la práctica.

Mejora del rendimiento

Establecer métodos

Algunas técnicas, llamadas métodos de conjuntos ( todos los métodos ), mejoran la calidad o confiabilidad de la predicción al construir varios árboles de decisión a partir de los datos:

El ensacado ( ensacado o agregación bootstrap ), un método temprano en el que históricamente construimos varios árboles de decisión volviendo a muestrear el conjunto de entrenamiento y luego construyendo los árboles mediante un procedimiento de consenso .

Clasificación por bosques aleatorios de árboles de Breiman .

El impulso del árbol de clasificación y regresión.

La clasificación rotacional de los bosques de árboles de decisión, en la que primero se aplica un análisis de componentes principales (PCA) a un conjunto aleatorio de variables de entrada.

Combinaciones con otras técnicas

Los árboles de decisión a veces se combinan entre sí o con otras técnicas de aprendizaje: análisis discriminante, regresiones logísticas, regresiones lineales, redes neuronales ( perceptrón multicapa , red de función de base radial ) u otras.

Se establecen procedimientos de agregación del desempeño de los diferentes modelos utilizados (como decisiones por consenso) para obtener el máximo rendimiento, controlando el nivel de complejidad de los modelos utilizados.

Ventajas y desventajas del método.

Ventajas

En comparación con otros métodos de minería de datos, los árboles de decisión tienen varias ventajas:

Sencillez de comprensión e interpretación. Es un modelo de caja blanca : si observamos una determinada situación en un modelo, se puede explicar fácilmente mediante la lógica booleana , a diferencia de los modelos de caja negra como las redes neuronales , cuya explicación de los resultados es difícil de entender.

Poca preparación de datos (sin normalización, valores vacíos para eliminar o variables ficticias).

El modelo puede manejar tanto valores numéricos como categorías. Otras técnicas suelen estar especializadas en un cierto tipo de variables (las redes neuronales solo se pueden utilizar en variables numéricas).

Es posible validar un modelo mediante pruebas estadísticas y, por tanto, tener en cuenta la fiabilidad del modelo.

Eficiente en grandes conjuntos de datos: el método es relativamente económico en términos de recursos informáticos.

Desventajas

Por otro lado, tiene ciertos inconvenientes:

El aprendizaje del árbol de decisión óptimo es NP-completo en relación con varios aspectos de la optimización. En consecuencia, los algoritmos de aprendizaje de árboles de decisión se basan en heurísticas , como algoritmos codiciosos que buscan optimizar el intercambio en cada nodo, y tales algoritmos no garantizan la obtención del óptimo global. Algunos métodos tienen como objetivo disminuir el efecto de la búsqueda codiciosa.

El aprendizaje del árbol de decisiones puede conducir a árboles de decisión muy complejos, que generalizan pobremente el conjunto de aprendizaje (este es el problema del sobreajuste mencionado anteriormente). Usamos procedimientos de poda para solucionar este problema, algunos enfoques como la inferencia condicional permiten eliminarlo.

Algunos conceptos son difíciles de expresar mediante árboles de decisión (como XOR o paridad ). En estos casos, los árboles de decisión se vuelven extremadamente grandes. Para solucionar este problema, existen varios medios, como la proporcionalización, o el uso de algoritmos de aprendizaje utilizando representaciones más expresivas (por ejemplo , programación lógica inductiva ).

Cuando los datos incluyen atributos con múltiples niveles, la ganancia de información en el árbol está sesgada a favor de estos atributos. Sin embargo, el problema de seleccionar predictores sesgados puede evitarse mediante métodos como la inferencia condicional.

Extensiones

Gráficos de decisión

En un árbol de decisión, todas las rutas desde la raíz hasta las hojas utilizan el conector AND . En un gráfico de decisión, también podemos usar el conector OR para conectar múltiples rutas usando la Longitud mínima del mensaje (MML). En general, los gráficos de decisión producen gráficos con menos hojas que los árboles de decisión.

Métodos de investigación alternativos

De los algoritmos evolutivos se utilizan para evitar la separación conduce al óptimo local.

También se puede muestrear el árbol utilizando métodos MCMC en un paradigma bayesiano .

El árbol se puede construir usando un enfoque de abajo hacia arriba (de abajo hacia arriba).

Algoritmos clásicos

Hay varios algoritmos para construir árboles de decisión, que incluyen:

ID3 ( dicotomización iterativa 3 )
C4.5, C5 (sucesores de ID3)
CHAID ( Detector automático de interacción CHi-cuadrado )
CHAID exhaustivo
CART ( árbol de clasificación y regresión )
SLIQ
BÚSQUEDA
VFDT
UFFT
MARZO
Árboles de inferencia condicionales . Un método estadístico basado en el uso de pruebas no paramétricas como criterio de separación.

ID3 y CART se inventaron de forma independiente en las décadas 1970-1980, pero utilizan enfoques similares para aprender árboles de decisión del conjunto de aprendizaje.

Todos estos algoritmos se distinguen por los criterios de segmentación utilizados, por los métodos de poda implementados, por su forma de manejar los datos faltantes en los predictores.

Implementaciones

Muchos software de minería de datos ofrecen bibliotecas para implementar uno o más algoritmos de aprendizaje de árboles de decisión. Por ejemplo, el software Open Source R contiene varias implementaciones de CART, como rpart, party y randomForest, el software gratuito Weka y Orange (y su módulo orngTree) o la biblioteca gratuita de Python scikit-learn ; pero también Salford Systems CART, IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, KNIME, Microsoft SQL Server [1] .

Notas

(fr) Este artículo está tomado parcial o totalmente del artículo de Wikipedia en inglés titulado " Decision Tree Learning " ( ver la lista de autores ) .

(en) Xindong Wu , Vipin Kumar , J. Ross Quinlan y Joydeep Ghosh , " Top 10 algoritmos en minería de datos " , Sistemas de información y conocimiento , vol. 14, n o 1,Enero de 2008, p. 1-37 ( ISSN 0.219 a 1.377 y 0219 a 3116 , DOI 10.1007 / s10115-007-0114-2 , leer en línea , visitada 1 st de agosto de 2020 ).
(en) S. Madeh Piryonesi y Tamer E. El-Diraby , " Análisis de Datos de Gestión de Activos: Predicción rentable del Índice de Estado del asfalto " , Revista de infraestructura de sistemas , vol. 26, n o 1,marzo 2020, p. 04019036 ( ISSN 1076 a 0.342 y 1943-555X , DOI 10.1061 / (ASCE) IS.1943-555X.0000512 , leer en línea , acceder 1 st 08 2020 ).
(en) Lior Rokach , minería de datos con árboles de decisión: teoría y aplicaciones , Hackensack (NJ), World Scientific Pub Co Inc,2008, 244 p. ( ISBN 978-981-27-7171-1 , aviso BnF n o FRBNF41351943 ).
Quinlan, JR, (1986). Inducción de árboles de decisión. Aprendizaje automático 1: 81-106, Kluwer Academic Publishers.
Leo Breiman , Árboles de clasificación y regresión , Monterey, CA, Wadsworth & Brooks / Cole Advanced Books & Software,1984, 368 p. ( ISBN 978-0-412-04841-8 ).
L. Rokach y O. Maimon , “ Inducción de arriba hacia abajo de clasificadores de árboles de decisión: una encuesta ”, IEEE Transactions on Systems, Man, and Cybernetics, Parte C , vol. 35, n o 4,2005, p. 476–487 ( DOI 10.1109 / TSMCC.2004.843247 ).
heurísticas se utilizan en particular cuando se busca reducir la complejidad del árbol agregando las modalidades de las variables utilizadas como predictores del objetivo. Por ejemplo, en el caso de las modalidades de una variable de clases de edad, solo permitiremos agrupaciones de clases de edad contiguas.
Breiman, L. (1996). Predictores de embolsado. "Machine Learning, 24": pág. 123-140 .
Friedman, JH (1999). Impulso del gradiente estocástico. Universidad Stanford.
Hastie, T., Tibshirani, R., Friedman, JH (2001). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Nueva York: Springer Verlag.
Rodríguez, JJ y Kuncheva, LI y Alonso, CJ (2006), Bosque de rotación: un nuevo método de conjunto clasificador, IEEE Transactions on Pattern Analysis and Machine Intelligence, 28 (10): 1619-1630.
Laurent Hyafil y RL Rivest , “La construcción de árboles de decisión binaria óptimos es NP-completa ”, Cartas de procesamiento de información , vol. 5, n o 1,1976, p. 15-17 ( DOI 10.1016 / 0020-0190 (76) 90095-8 ).
Murthy S. (1998). Construcción automática de árboles de decisión a partir de datos: una encuesta multidisciplinaria. Minería de datos y descubrimiento de conocimientos
Ben-Gal I. Dana A., Shkolnik N. y Singer: "Construcción eficiente de árboles de decisión por el método de distancia de información dual". Tecnología de calidad y gestión cuantitativa (QTQM), 11 (1), 133-147. (disponible en línea en PDF en inglés )
DOI : 10.1007 / 978-1-84628-766-4 .
T. Hothorn , K. Hornik y A. Zeileis , “ imparcial Recursive Particionamiento: A Condicional Inferencia Marco ”, Journal of Computational y gráfica de Estadística , vol. 15, n o 3,2006, p. 651–674 ( DOI 10.1198 / 106186006X133933 , JSTOR 27594202 ).
C. Strobl , J. Malley y G. Tutz , “ Una introducción a Recursive Particionamiento: Fundamento, características de aplicación y de clasificación y regresión Trees, embolsado y Random Forests ”, métodos psicológicos , vol. 14, n o 4,2009, p. 323–348 ( DOI 10.1037 / a0016973 ).
DOI : 10.1007 / b13700 .
Deng, H., Runger, G.; Tuv, E. (2011). "Medidas de sesgo de importancia para atributos y soluciones de valores múltiples" en Actas de la 21ª Conferencia Internacional sobre Redes Neuronales Artificiales (ICANN) : 293-300 .. p .
http://citeseer.ist.psu.edu/oliver93decision.html
Papagelis A., Kalles D. (2001). Generación de árboles de decisión mediante técnicas evolutivas, Actas de la Decimoctava Conferencia Internacional sobre Aprendizaje Automático, p. 393-400 , 28 de junio-01 de julio de 2001
Barros, Rodrigo C., Basgalupp, MP, Carvalho, ACPLF, Freitas, Alex A. (2011). Un estudio de algoritmos evolutivos para la inducción de árboles de decisión . IEEE Transactions on Systems, Man and Cybernetics, Part C: Applications and Reviews, vol. 42, n. 3, pág. 291-312 , mayo de 2012.
Chipman, Hugh A., Edward I. George y Robert E. McCulloch. "Búsqueda de modelos CART bayesiano". Revista de la Asociación Estadounidense de Estadística 93.443 (1998): 935-948.
Barros RC, Cerri R., Jaskowiak PA, Carvalho, ACPLF, Un algoritmo de inducción de árbol de decisión oblicuo de abajo hacia arriba . Actas de la XI Conferencia Internacional sobre Diseño y Aplicaciones de Sistemas Inteligentes (ISDA 2011).
GV Kass , “ Una técnica exploratoria para investigar grandes cantidades de datos categóricos ”, Estadística aplicada , vol. 29, n o 21980, p. 119-127 ( DOI 10.2307 / 2986296 , JSTOR 2986296 ).

Referencias

L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: árboles de clasificación y regresión , Wadsworth International, 1984 .
R. Quinlan: C4.5: Programas de aprendizaje automático , Morgan Kaufmann Publishers Inc., 1993 .
D. Zighed, R. Rakotomalala: Gráficos de inducción: aprendizaje y minería de datos , Hermes, 2000 .
Daniel T. Larose (adaptación francesa T. Vallaud): De los datos al conocimiento: Introducción a la minería de datos (1Cédérom), Vuibert, 2005 .

Ver también

enlaces externos

Manual de estadísticas en línea (en inglés).
Introducción a los árboles de decisión .