Reconocimiento automático de voz

Reconocimiento automático de voz
Información sobre la plantilla
Reconocimiento de Voz.png

Reconocimiento automático del habla (RAH) o reconocimiento automático de voz . Es una disciplina de la inteligencia artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y computadoras. Es una de las formas de comunicación con las máquinas que se está sobreponiendo con más fuerza a otras formas de interacción más tradicionales, sobre todo los botones físicos, aunque también está desplazando a la funcionalidad táctil en algunos casos.

Origen

A principios del año 1940, los laboratorios de AT&T y Bell desarrollaron un aparato primitivo que podía reconocer la voz. Estos científicos sabían que el éxito y la globalización de esta tecnología iba a depender de su habilidad de percibir información verbal compleja, con alta precisión y constancia. Ya en 1960 los científicos se enfocaron en desarrollar un sistema de reconocimiento de voz más complejo. Como primer paso, desarrollaron un aparato que podía usar la conversación discreta, un estímulo verbal puntuado por pausas. Sin embargo, en 1970, es cuando realmente se desarrolló la tecnología de reconocimiento de voz que no requería que el usuario haga pausas entre palabras. Esta tecnología se volvió practica en los años 80 y sigue siendo desarrollada y afinada hasta hoy en día.

Características

Un sistema de reconocimiento de voz está formado por varias capas o modelos:

  • Modelo acústico: permite a la tecnología identificar si el sonido procede de una llamada de móvil, de un teléfono IP o cualquier otro medio. Determinar el canal de comunicación es importante para establecer el grado de distorsión que puede experimentar el mensaje.
  • Modelo lingüístico: va a continuación y se trata del idioma. Pero no es tan sencillo como indicar al sistema que reconozca castellano, francés o mandarín. No sólo es preciso entender la lengua sino los distintos acentos con que se habla e incluso entender las formas de expresarse, que pueden ser diferentes en cada hablante.
  • Modelo semántico: con él se consigue que un sistema de reconocimiento de voz entienda la forma de hablar de la gente, cómo se construyen las frases y cómo puede variar esta construcción, dependiendo de la región, de la cultura y de todas las influencias personales de cada cual.
  • Motor estadístico: recoge la frase una vez transcrita a texto y realiza una búsqueda en la base de datos con estos términos. Esta consulta tiene que adivinar si la frase dicha, con el nivel de distorsión correspondiente si se habla desde un móvil, el acento y la forma de decirlo están pidiendo una determinada acción.

Importancia y uso

El reconocimiento de voz juega un papel importante en el segmento empresarial y en ciertas profesiones, como en el dictado médico o en laboratorios, donde la transcripción ahorra mucho tiempo. Hoy en día las grandes compañías de tecnología cuentan con equipos dedicados a la mejora de los comandos por voz. El caso más conocido es el de Apple con Siri, pero también Microsoft, Samsung o IBM tienen sus propios sistemas. Los avances tecnológicos han hecho que el software de reconocimiento de voz y sus aparatos, sean mucho más prácticos y fáciles de usar. Estos avances tecnológicos han permitido que productos contemporáneos se despeñen con una precisión superior al 90 por ciento, según indican los números de la industria.

Fuentes