Naturaleza | Teorema |
---|---|
Nombrado en referencia a | Richard Threlkeld Cox |
El teorema de Cox-Jaynes ( 1946 ) codifica y cuantifica el proceso de aprendizaje basándose en cinco postulados simples ( desiderata ). Esta codificación coincide con la de probabilidad , históricamente de origen bastante diferente. El teorema debe su nombre al físico Richard Threlkeld Cox que formuló la versión inicial.
Cox formaliza la noción intuitiva de plausibilidad en forma numérica. Demuestra que, si las plausibilidades satisfacen un conjunto de hipótesis, la única forma coherente de manipularlas es utilizar un sistema isomorfo a la teoría de la probabilidad.
Este sistema induce una interpretación "lógica" de probabilidades independiente de la de frecuencia . Proporciona una base racional para el mecanismo de inducción lógica y, por lo tanto, para el aprendizaje automático . Es más, el teorema, en las condiciones impuestas por los postulados, implica que cualquier otra forma de tener en cuenta la información en el marco de esta representación particular del conocimiento estaría de hecho sesgada. Por lo tanto, este es un resultado extremadamente fuerte.
Los resultados de Cox habían llegado solo a una pequeña audiencia antes de que Edwin Thompson Jaynes redescubriera este teorema y desentrañara una serie de implicaciones para los métodos bayesianos . Irving John Good exploró las consecuencias en el campo de la inteligencia artificial .
Stanislas Dehaene utiliza el teorema, su construcción y sus aplicaciones en el marco del estudio de los procesos cognitivos humanos, siguiendo en este una idea ya enunciada en 1988 por Jaynes.
En su ensayo "¿Es la ciencia supersticiosa?" ", Bertrand Russell evoca el 'escándalo de la inducción ' :
Esta paradoja pretendía mostrar una falla en el mecanismo de inducción, que requería que se especificara con mayor rigor su dominio de validez: siempre hay que mencionar el contexto de lo que estamos hablando. Por lo tanto, contar pájaros que no son blancos y que no son cuervos en una habitación no le indica la probabilidad de que todos los cuervos sean blancos, sino que todos los cuervos son blancos en esa habitación , una afirmación perfectamente correcta cuando no hay ningún cuervo en la habitación, en virtud de la relación (que define la implicación lógica , en lógica puramente deductiva ):
Cox plantea cinco desiderata para un robot que razonaría de acuerdo con una lógica inductiva .
Tres de ellos se aplican al método:
consistencia si hay varias formas de encontrar un resultado, deben conducir al mismo resultado; continuidad del método un cambio en el valor de un parámetro no debería requerir un cambio en el método de cálculo; universalidad queremos una calculadora de situación general, no diseñada para un uso particular.Se requieren dos del usuario:
especificaciones inequívocas una proposición debe poder entenderse de una manera y solo de una; sin retención de información el robot conoce todos los datos relevantes.Es necesario poder decir en cualquier momento de dos plausibilidades que sea mayor que la otra . Esta relación de orden sugiere una representación cuantitativa y la forma numérica parece conveniente.
Una representación en forma de números enteros plantearía un problema, ya que ninguna plausibilidad podría deslizarse entre dos representados por números enteros sucesivos. Entonces necesitamos un conjunto continuo .
Lo racional está de acuerdo, y mucho menos los números reales están de acuerdo.
La convención adoptada arbitrariamente es que las plausibilidades más grandes estarán representadas por números más grandes .
Lo que nos parece obvio no debe contradecirse con el modelo. Esta regla aparentemente simple no siempre es fácil de aplicar en el caso de las preferencias colectivas, como muestran la paradoja de Condorcet y el teorema de imposibilidad de Arrow .
Regla de ejemplo:Si se puede obtener una conclusión por más de un medio, todos estos medios deben dar el mismo resultado.
Esta regla elimina el campo de examen de las "heurísticas múltiples", ya que podrían contener estas contradicciones (como en ocasiones hacen tales criterios Savage y Wald , pretendiendo ambos el minimax de la teoría de juegos ).
El robot siempre debe tener en cuenta toda la información que se le proporciona. No debe ignorar deliberadamente una parte y basar sus conclusiones en el resto. En otras palabras, el robot debe ser completamente no ideológico , neutral desde un punto de vista .
El robot representa estados de conocimiento equivalentes mediante plausibilidades equivalentes. Si dos problemas son idénticos excepto por un simple etiquetado de proposiciones, el robot debe asignar las mismas plausibilidades a ambos casos.
Por tanto, dos proposiciones deben considerarse a priori como de plausibilidad equivalente cuando se distinguen únicamente por su nombre, lo que difícilmente ocurre salvo en casos muy particulares, como en el caso de monedas o dados descargados.
Sin entrar en las ecuaciones, la idea es que cuando se componen dos plausibilidades del mismo estado, la plausibilidad compuesta es necesariamente igual o mayor que la mayor de las dos.
Este es el caso inverso: cuando se deben verificar dos plausibilidades para que exista un estado, este estado no puede tener una plausibilidad mayor que el menor de los dos anteriores.
Good ha propuesto una notación que facilita la manipulación de plausibilidades. Alan Turing había señalado en su tiempo que la expresión de las probabilidades era mucho más fácil de manejar reemplazando una probabilidad p que varía de 0 a 1 por la expresión ln (p / (1-p)) permitiendo una mejor discriminación de valores muy pequeños. (Muy cerca de 0) así como valores muy grandes (muy cerca de 1). En particular, en esta forma, una contribución de información por la regla de Bayes da como resultado la adición de una cantidad algebraica única a esta expresión (que Turing llamó log-impar ), que cualquiera que sea la probabilidad a priori de salida antes de la observación . La notación de Good utiliza, de acuerdo con esta idea, una escala logarítmica .
Escala de DecibanIrving John Good utilizó una variación de esta idea para facilitar el trabajo con estas nuevas cantidades. A diferencia de Turing:
Llamó a la medida correspondiente, W = 10 log 10 (p / (1-p)), peso de la evidencia porque permitía "ponderar" el testimonio de los hechos de acuerdo con las expectativas - manifestadas por las probabilidades "subjetivas" previas. .a la observación - independientemente de estas expectativas .
Para evitar cualquier connotación parasitaria, Dehaene prefiere hablar de decibelios, como Turing, en lugar de decibelios como Good.
En bitsEn ocasiones, las evidencias también se expresan en bits , en particular en las pruebas de validez de las leyes de escala .
De hecho, cuando una ley como la de Zipf o la ley de Mandelbrot se ajusta mejor a los datos que otra ley que no requiere clasificación previa, debe tenerse en cuenta que clasificar una secuencia de n términos selecciona arbitrariamente una permutación entre n ! posible. La clasificación representa una entrada de información (u orden ) del orden de n log 2 n . Esta entrada de información podría ser suficiente para el mejor ajuste. Se puede esperar ver una distribución decreciente para reflejar mejor lo que uno acaba de ordenar en orden descendente.
Si la ganancia de evidencia aportada por la clasificación representa menos bits que el costo de clasificación, la información proporcionada por la consideración de una ley de escala es cero. El orden proporcionado es simplemente el que acabamos de poner: por lo tanto, el modelo no debe conservarse en este caso. En otros, su validez es evidente: ver la ley de Zipf-Mandelbrot .
Notamos que el álgebra de Boole es isomórfica a la teoría de probabilidades reducida a solo los valores 0 y 1.
Esta consideración llevó a la invención en la década de 1970 de las computadoras estocásticas promovidas por la empresa Alsthom (que en ese momento se escribía con una h ) y que pretendían combinar el bajo costo de los circuitos de conmutación con la potencia de procesamiento de las computadoras analógicas. Algunos se hicieron en ese momento.
Myron Tribus propone considerar la probabilidad como la simple traducción digital de un estado de conocimiento y no como el paso al límite de la noción de frecuencia . En apoyo, toma la imagen clásica de los dados con salida de probabilidad de cada cara se considera entre 1/ 6 ª incluso si el troquel está hecho de hielo, por lo que se puede ejecutar más de un par de veces, que prohíbe cualquier paso al límite.
Luego se imagina la objeción de un interlocutor: "Si imagino mentalmente mil dados, sí puedo imaginar un paso al límite", a lo que responde: "Por supuesto. Y si, por tanto, sólo los representas mentalmente , es porque de hecho se trata sólo de un estado de conocimiento ”.
Las divergencias entre los enfoques frecuentista y bayesiano despertaron mucha pasión en la década de 1970, cuando casi tomaron el aspecto de una "guerra religiosa". "Su coexistencia" pacífica "es ahora aceptada, cada uno tiene su dominio de máxima eficiencia y los dos enfoques convergen de todos modos cuando nos dirigimos a un gran número de observaciones. No hay conflicto para números pequeños, métodos frecuentistas ( estadísticos ) que no son relevantes para esta área de aplicación.
Edwin Thompson Jaynes , en su reanudación y profundización del teorema de Cox , lo usa para mostrar que cualquier aprendizaje , incluido el aprendizaje automático, debe necesariamente usar la inferencia bayesiana (excepto para un homomorfismo si se desea, como un pasaje a través de una transformación logarítmica que simplifica la práctica cálculos), o dar resultados inconsistentes en algún lugar y, en consecuencia, no ser adecuados. Este resultado extremadamente fuerte requiere la aceptación de cinco simples desiderata , incluido el de la continuidad del método (no cambie repentinamente el algoritmo simplemente porque un elemento de datos se modifica infinitesimalmente) .
Consulte también el artículo de Logit .
Los enfoques son diferentes: la llamada lógica difusa es de origen pragmático (un ejemplo de "lógica difusa" es la clasificación de los alumnos en un examen general mediante el uso de coeficientes arbitrarios para cada materia) y sin teoremas reales: es una cuestión de una técnica sencilla . El aprendizaje bayesiano es una teoría sólida basada en un edificio matemático y nociones cuantitativas, como la maximización de la entropía (MAXENT). Es cierto que los dos enfoques finalmente convergieron (detección automática de escenas para cámaras digitales, reconocimiento de voz y caracteres), pero solo porque los enfoques bayesianos se han tragado en gran medida el resto.
El teorema asume que una descomposición en proposiciones es anterior a él y que solo queda estimar el valor de cada una. Posteriormente, Watanabe observó que cualquier descomposición en criterios es, por construcción, arbitraria ( Teorema del patito feo ) y, por lo tanto, no puede reclamar ninguna impersonalidad . Murphy y Medin lo ilustraron sarcásticamente en 1985:
"Supongamos que enumeramos los atributos que las ciruelas y las cortadoras de césped tienen en común para juzgar su similitud. Es fácil ver que la lista puede ser interminable. Ambos pesan menos de 10 toneladas (y menos de 11), no existían hace 10 millones de años (ni 11), ambos no tienen órganos auditivos, ambos pueden ser abandonados, ambos ocupan espacio, etc. Asimismo, la lista de diferencias podría ser infinita ... Las dos entidades pueden considerarse arbitrariamente similares o diferentes por la simple elección de los atributos que uno elige considerar como relevantes ”.
Cada disciplina tiene sus medidas favoritas: si la térmica se ocupa principalmente de las temperaturas , la termodinámica estará más ligada a las medidas de la cantidad de calor , o incluso de la entropía . La electrostática está más interesada en voltajes que en intensidades, mientras que lo contrario es cierto para corrientes débiles, y en ingeniería eléctrica es más en términos de potencia lo que tendemos a razonar. Según su disciplina de origen, cada experimentador tenderá por tanto a hacer sus estimaciones sobre las unidades a las que está acostumbrado .
En el caso de un conjunto eléctrico, un especialista en ingeniería eléctrica quizás hará una estimación de la potencia disipada (Ri²) mientras que un especialista en corrientes débiles preferirá estimar la intensidad en sí (i). Si se asegura la convergencia a largo plazo de las estimaciones en ambos casos, no se hará de la misma manera, incluso con distribuciones a priori idénticas , porque la expectativa matemática de un cuadrado no está matemáticamente ligada al cuadrado d 'una esperanza. . Este es el principal obstáculo para los métodos bayesianos .
Independientemente de las probabilidades a priori que atribuimos a los eventos, nuestras estimaciones también están "formateadas" en parte por el lenguaje y la "distorsión profesional" que se le atribuye. Concretamente, esto nos recuerda que no hay solo una, sino dos fuentes de arbitrariedad en los métodos bayesianos: la de medición, que contamina las probabilidades a priori elegidas y la de método, que corresponde a nuestra representación del problema. Por otro lado, la arbitrariedad se limita a estos dos elementos, y los métodos bayesianos son entonces completamente impersonales.