La inmensa capacidad de almacenamiento y procesamiento de las computadoras hace posible que hoy las máquinas entiendan, casi a la perfección, lo que estamos diciéndoles, explica Sadaoki Furui, la mente que está detrás de Google Voice Search.
La aplicación gratuita de la empresa de Mountain View, California, hace que un iPhone entienda claramente lo que estamos pidiéndole que busque. Tocas el botón que semeja un micrófono. Hablas y la máquina repite lo que dijiste. Luego lo escribe en la barra del navegador y busca. Te aparece el resultado en segundos, sin necesidad de teclear nada más que el icono que pone a escuchar al dispositivo lo que vas a decir.
Esa tecnología fue liberada hace unas semanas y ha sido un éxito. Es sorprendente, literalmente.
Le cuento a Sadaoki Furui que desde hace semanas probamos en México Google Voice Search y que nos sorprendió que a la primera interacción, el iPhone entendió lo que le pedimos buscar. Hace más de una década, le digo, con el software de Dragon, había que pasar horas configurando la computadora para que pudiera entender lo que queríamos decirle. Una vez que sabía todo lo que expresábamos, nadie más podía darle órdenes, porque transcribía mal nuestras palabras, era poco confiable.
El profesor Furui sonríe cuando le platico lo anterior. Y revela la razón de su repentina alegría: parte de su trabajo es Google Voice Search.
En realidad, todo lo que tiene que ver con reconocimiento de voz, desde autos hasta smartphones, tiene que ver con él.
Estoy sentado al lado del legendario profesor del departamento de Ciencias de la Computación del Instituto de Tecnología de Tokio en un vuelo entre Narita y Los Ángeles. Luce como un frágil viejito japonés que huye del frío que se siente en la capital japonesa, hacia tierras más calientes. En realidad viaja a California a dar unas conferencias sobre reconocimiento de voz.
La charla sobre Google Voice Search y el reconocimiento de voz surge por casualidad. Igual que su explicación:
“Es por el poder que hoy tienen las computadoras, por eso es posible, sí”, dice Furui. “Por la inmensa capacidad de almacenamiento y procesamiento”.
Sadaoki Furui estudió en la Universidad de Tokio matemáticas, ingeniería y física. Su maestría en 1970 y su doctorado en 1978. Desde que terminó la carrera comenzó a trabajar en Nippon Telegraph and Telephone (NTT). Entre 1991 y 1997 se encargó de dirigir el Laboratorio de Investigaciones Furui, en los Laboratorios de Interface Humana de NTT.
Hoy da clases de cómputo en la escuela de graduados del Tokyo Institute of Technology. Y viaja por el mundo explicando cómo es que las máquinas entienden nuestros lenguajes. Tiene más de 900 investigaciones publicadas y es citado en miles más. Es el experto mundial en reconocimiento de voz.
—¿Qué sigue profesor? —, le pregunto antes de que comiencen a servir los primeros alimentos.
—Traducción simultánea. Estamos experimentando con traducción simultánea. Sí.
Se trata de software que hace que al hablar, tus palabras se repitan en el idioma que quieras. Cuando te responden, en cuestión de segundos, entenderás qué es lo que dice la otra u otras personas con las que estás. No necesitas aprender años un idioma. Las máquinas ya pueden hacerlo.
Furui dice que actualmente experimentan, por ejemplo, en aviones como en el que viajamos. En estos espacios, dice, se dan charlas que las máquinas pueden memorizar rápidamente: ¿Qué desea comer? ¿Quiere que guarde su saco? ¿Qué se le ofrece? ¿Necesita algo más?
Con un smartphone de por medio, no habrá barreras de idiomas, dice Furui.
—¿En unos 10 años tendremos esta tecnología profesor?—, pregunta el reportero.
— (risas) Antes, mucho antes…
—¿Qué desea comer? —, le dice la azafata. Luego, el doctor Sadaoki Furui elige una película de Clint Eastwood para continuar con el viaje de más de 10 horas del aeropuerto de Narita al de Los Ángeles.