Asignación de Dirichlet latente

Asignación de Dirichlet latente
Naturaleza Modelo de tema
Acrónimo (  pulg ) LDA
Nombrado en referencia a Ley de dirichlet

En el campo del procesamiento del lenguaje natural , la asignación de Dirichlet latente (English Latent Dirichlet Allocation ) o LDA es un modelo de probabilidad generativo para explicar conjuntos de observaciones por medio de grupos no observados de los mismos, definidos por similitudes de datos.

Temas en LDA

Por ejemplo, si las observaciones ( ) son las palabras recopiladas en un conjunto de documentos de texto ( ), el modelo LDA supone que cada documento ( ) es una mezcla ( ) de una pequeña cantidad de materias o temas , y que la generación de cada ocurrencia de una palabra ( ) es atribuible (probabilidad) a uno de los temas ( ) del documento. El modelo LDA es un ejemplo de un "  modelo sujeto  ". Fue presentado por primera vez como modelo gráfico para la detección de temas de un documento, por David Blei , Andrew Ng y Michael Jordan en 2002. LDA tiene muchas aplicaciones, particularmente en minería de datos y procesamiento automático de idiomas .

Operación

Establecemos un número K de temas e intentamos aprender los temas representados en cada documento y las palabras asociadas con estos temas.

Inicialización

A cada palabra de cada documento se le asigna un tema, de acuerdo con una distribución de Dirichlet sobre un conjunto de K temas.

, con y es una distribución de Dirichlet con un parámetro simétrico hueco ( )

Esto genera un primer "  modelo temático  ": los temas presentes en los documentos y las palabras que definen los temas. Este modelo de sujeto es muy poco probable porque se genera de forma aleatoria.

Aprendiendo

Buscamos mejorar el modelo de sujeto generado aleatoriamente durante la inicialización. Para ello, en cada documento, tomamos cada palabra y actualizamos la temática a la que está vinculada. Este nuevo tema es el que tendría mayor probabilidad de generarlo en este documento. Por lo tanto, asumimos que todos los temas son correctos, excepto la palabra en cuestión.

Más precisamente: para cada palabra ( ) de cada documento ( ), calculamos dos cantidades para cada tema ( ):

Luego elegimos el nuevo tema t con la probabilidad . Esto corresponde a la probabilidad de que el tema genere la palabra en el documento .

Al repetir los pasos anteriores una gran cantidad de veces, las asignaciones se estabilizan. Obtenemos la mezcla de temas presente en cada documento contando cada representación de un tema (asignado a las palabras en el documento). Las palabras asociadas a cada tema se obtienen contando las palabras asociadas a él en el corpus.

Notas y referencias

  1. David Blei, Andrew Ng y Michael I. Jordan, "  Latent Dirichlet Allocation  ", Actas de la 14a Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural: Natural y Sintética , Vancouver, Columbia Británica, Canadá, MIT Press, n o  NIPS'01, Además de esto, necesita saber más al respecto.2001, p.  601-608 ( leído en línea , consultado el 7 de enero de 2020 )

Bibliografía

Ver también

Artículos relacionados

enlaces externos

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">