Procesamiento del lenguaje natural

Procesamiento del Lenguaje Natural
Información sobre la plantilla
Parte de la familia Inteligencia artificial
PLN.png

Procesamiento del Lenguaje Natural (PLN). Es una disciplina dentro de la Inteligencia Artificial y la rama ingenieril de la lingüística computacional. Se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de lenguajes naturales.

Descripción

Se trata de una disciplina tan antigua como el uso de las computadoras (años 50), de gran profundidad, y con aplicaciones tan importantes como la traducción automática o la búsqueda de información en Internet. No trata la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente.

Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria

Historia

El "Procesamiento del Lenguage Natural" es una disciplina con una larga trayectoria. Nace en la década de 1960, como un subárea de la Inteligencia Artificial y la Lingüística, con el objeto de estudiar los problemas derivados de la generación y comprensión automática del lenguaje natural. La Traducción automática, por ejemplo, ya había nacido a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial».

En sus orígenes, sus métodos tuvieron gran aceptación y éxito, no obstante, cuando sus aplicaciones fueron llevadas a la práctica, en entornos no controlados y con vocabularios genéricos, empezaron a surgir multitud de dificultades. Entre ellas, pueden mencionarse por ejemplo los problemas de polisemia y sinonimia.

En los últimos años, las aportaciones que se han hecho desde este dominio han mejorado sustancialmente, permitiendo el procesamiento de ingentes cantidades de información en formato texto con un grado de eficacia aceptable. Muestra de ello es la aplicación de estas técnicas como una componente esencial en los motores de búsqueda web, en las herramientas de traducción automática, o en la generación automática de resúmenes.

Aplicaciones

Las principales tareas de trabajo en el PLN son:

  • Síntesis del discurso
  • Análisis del lenguaje
  • Comprensión del lenguaje
  • Reconocimiento del habla
  • Síntesis de voz
  • Generación de lenguajes naturales
  • Traducción automática
  • Respuesta a preguntas
  • Recuperación de la información
  • Extracción de la información
  • Resumen automático de textos

Conceptos aplicados al PLN

  • Lingüística
  • Análisis Lingüístico
  • Lenguaje
  • Lenguaje Formal
  • Comprensión del lenguaje
  • Generación de textos
  • Gramáticas Formales
  • Definiciones empleadas en las gramáticas formales

PLN en la recuperación de información textual

La complejidad asociada al lenguaje natural cobra especial relevancia cuando se necesita recuperar información textual (Baeza–Yates, 1999) que satisfaga la necesidad de información de un usuario. Es por ello, que en el área de Recuperación de Información Textual las técnicas de NLP son muy utilizadas (Allan, 2000), tanto para facilitar la descripción del contenido de los documentos, como para representar la consulta formulada por el usuario, y ello, con el objetivo de comparar ambas descripciones y presentar al usuario aquellos documentos que satisfagan en mayor grado su necesidad de información (Baeza–Yates, 2004).

Dicho de otro modo, un sistema de recuperación de información textual lleva a cabo las siguientes tareas para responder a las consultas de un usuario:

  1. Indexación de la colección de documentos: en esta fase, mediante la aplicación de técnicas de NLP, se genera un índice que contiene las descripciones de los documentos. Normalmente, cada documento es descrito mediante el conjunto de términos que, hipotéticamente, mejor representa su contenido.
  2. Cuando un usuario formula una consulta el sistema la analiza, y si es necesario la transforma, con el fin de representar la necesidad de información del usuario del mismo modo que el contenido de los documentos.
  3. El sistema compara la descripción de cada documento con la descripción de la consulta, y presenta al usuario aquellos documentos cuyas descripciones más se asemejan a la descripción de su consulta.
  4. Los resultados suelen ser mostrados en función de su relevancia, es decir, ordenados en función del grado de similitud entre las descripciones de los documentos y de la consulta.

Fuentes