Un lenguaje natural , o lenguaje ordinario , es un lenguaje "normal" hablado por un ser humano. Se opone al lenguaje formal , como el lenguaje informático , así como al lenguaje creativo De los lenguajes construidos .
Designamos por lenguaje natural el lenguaje hablado por los humanos, que apareció entre 200.000 y 50.000 años antes de nuestra era. Está detallado por la historia de las lenguas . Después de 2 millones de años de gestación por Homo erectus , que tomó el relevo del Homo habilis , el hombre moderno, llamado Homo sapiens , apareció por la conjunción de muchos factores:
Hay dos escenarios para la aparición del Homo sapiens : el escenario " Fuera de África " y el escenario pluri-centrípeto (poligénesis). Investigaciones recientes en paleo-lingüística identificaron a principios del siglo XXI E una base de 27 palabras, común en la raíz de todas las lenguas terrestres escritas, lo que empuja a favorecer el escenario “ Fuera de África ” (monogénesis). De hecho, varias fuentes no habrían tenido una razón para adoptar el mismo protolenguaje inicial.
Posteriormente, el Homo sapiens se impuso dentro de la especie humana, bien por la hipótesis productivista, bien por la hipótesis sociológica.
Durante aproximadamente 7000 años, este idioma ha adoptado una forma escrita en varios idiomas, que luego se establecieron como los idiomas dominantes. Principalmente debido a esto, 6.000 idiomas están en peligro de extinción en la actualidad.
En informática , el lenguaje natural se opone al lenguaje informático :
El desafío para los editores de motores de búsqueda es poder proporcionar resultados relevantes a una consulta formulada en lenguaje natural.
Alan Turing , matemático británico de la primera mitad del XX ° siglo también ha conjeturado que la inteligencia artificial podría muy bien dar la impresión de "hablar" sería difícil discernir un ser humano. Las pruebas de inteligencia artificial que tienen la capacidad de imitar la conversación humana se denominan pruebas de Turing .
Si la consistencia de un texto es propiedad de un texto que no requiere deducción para pasar de un elemento documental al siguiente, usaremos el ejemplo de Florian Wolf et al. para ilustrar esta propiedad:
Las inferencias a realizar para comprender el texto son aquí triviales, respetando el principio de relevancia en la transmisión de información. Son progresivos. Se necesita buen tiempo para lanzar un cohete, y el lanzador Ariane puede lanzar dos satélites. Aún tenemos que caracterizar estas inferencias: "el clima estuvo bueno y por lo tanto" la primera inferencia hace explícita, y "el lanzador Ariane […] puso dos satélites en órbita" hace explícita la segunda inferencia. No se sabe si el lanzador puede lanzar cuatro satélites, pero ese no es el punto. Debemos ser conscientes de la necesidad de todas las palabras de este texto.
Además, se respeta la progresión: hablamos del clima, luego el lanzamiento del cohete y finalmente lo que se lanza.
Quitemos de este texto el espacio adjetivo adjunto al centro del sustantivo y ya no sabemos cómo justificar su consistencia. Entonces debemos hacer una inferencia menos explícita: el centro de Kourou es un centro espacial. Para hacer esto, debemos mirar la teoría de la pragmática para evaluar el costo de esta inferencia. Cabe señalar que el principio de relevancia evoluciona fuertemente ya sea que estemos en un lenguaje escrito donde lo preestablecido son débiles o en el lenguaje oral donde lo preestablecido es importante sabiendo que el autor conoce parte del conocimiento de su oyente.
Hay que reconocer que muchos textos no satisfacen esta propiedad: así Michel Charolles dedica muchos documentos a inventariar estas situaciones de ambigüedad en los textos:
Estos ejemplos resaltan la noción de profundidad de tratamiento implícito que estos textos requieren para lograr consistencia.
La conformidad tipográfica se definirá como la propiedad de los textos para respetar la ortografía y la tipografía en la escritura. Si es aceptable considerar que "Lift-Gate" constituye una entidad con nombre y que "lift-gate" es un nombre común, la traducción literal de la palabra "Lift-Gate" en una entidad con nombre introduce ruido innecesario en el procesamiento semántico. . Es deseable filtrar estas manifestaciones en los tratamientos morfológicos.
La conformidad léxica consiste en elegir el término correcto para un concepto: así, "Tailgate" es una palabra compuesta explícita, la "tail gate" se traduce en francés por "tailgate", aunque en francés, este término es redundante porque "tailgate" es suficiente.
El uso de un diccionario es satisfactorio siempre que se busque no solo las palabras encontradas, sino también las partes de las palabras (lexemas) que puedan constituir palabras.
De esta forma se impuso la opción, en los dos primeros documentos del corpus, de sustituir “tapa de maletero” por “tapa de maletero” que significa “tapa de maletero”. Designaremos este tipo de error por error léxico relacionado con el análisis de palabras compuestas.
Más allá de eso, debemos dedicarnos a resolver las ambigüedades de las expresiones. No debemos detenernos en la raíz de los lemas de las palabras compuestas.
Las cualidades estilísticas que contribuyen a una mejor coherencia. Los documentos genéricos se benefician de estar escritos en el presente genérico, al estandarizar las formas negativas tanto como sea posible. Así, un requisito adopta la forma activa y está escrito en el presente genérico, y la transformación de formas pasivas en formas activas es suficiente para satisfacer la necesidad. También puede resultar útil utilizar una transformación para procesar textos negativos.
Las cualidades de los documentos se califican principalmente con respecto a los componentes del núcleo de coherencia:
Las referencias son, entre otras, del libro Aux Origines des Langues et du Langue, editado por Jean-Marie Hombert, Fayard , 2005