Chay mana qullunampaq (Para que no se extinga) *

Un equipo de científicos de la PUCP desarrolla el más grande proyecto a nivel mundial para preservar el quechua con el uso de la inteligencia artificial.

20/06/2017

Un equipo de científicos de la PUCP desarrolla el más grande proyecto a nivel mundial para preservar el quechua con el uso de la inteligencia artificial. Ha creado un programa para convertir este idioma de voz a texto. Necesita la colaboración de miles de quechuahablantes.

* (Nota publicada originalmente en el suplemento Domingo del diario La República)
Escribe: Milagros Berríos.

Ese día no había clases, pero su profesor lo observaba desde las montañas. Lorenzo, de diez años, paseaba esa mañana con sus animales por los campos de Buenavista, un centro poblado de apenas 300 habitantes, en Ayacucho. A él poco le importaba que su maestro hubiera enseñado en Huamanga, una ciudad donde los chicos de quinto de primaria hablaban castellano. Ese detalle pasaba desapercibido cuando vigilaba a sus animales. En sus manos, Lorenzo llevaba un libro que algún gobierno, casi por casualidad, había dejado en Buenavista. Era Agua, de José María Arguedas, estaba escrito en quechua y, unas horas después, le traería problemas.

Quechua ASR_2

El proyecto busca preservar el quechua. Foto: La República.

Al día siguiente, el profesor mandó a llamar a sus padres. Ya reunidos en un salón de clases, el maestro le pidió al alumno más grande del aula, al que llamaban Wanlla («la papa más grande»), que cargara al pequeño lector de diez años. Una vez que Lorenzo era sujetado por su compañero, su madre pasaba de espectadora a participante: tenía que azotarlo. Ese era su castigo por haber hablado —o leído— en quechua. En esa escuela todos lo hacían. Pero, desde que llegó ese profesor, tenían la obligación de olvidarlo. «¿O acaso querían ser excluidos?». Si no lo hacían, había golpes.

Esta es una de las historias que Lorenzo Ruiz de la Vega Tenorio, de 27 años, ha recordado en sus últimos viajes a Ayacucho, Apurímac, Puno y Cusco. Allí escuchó a otros peruanos también silenciados en la infancia. «En el colegio era difícil aprender. Los conocimientos,  libros, clases, todo estaba en castellano —comenta—. Cuando contamos nuestras historias solo hallamos coincidencias».

En febrero pasado, durante quince días, Lorenzo visitó más de treinta radios con locutores quechuahablantes. Ellos compartieron sus vivencias y él los invitó a participar en un proyecto para recuperar su idioma. Necesitaba las grabaciones de sus programas radiales en su lengua materna. Quería sus voces en quechua.

Jaime_Condori_Radio_Onda_Azul

Jaime Condori, periodista de Radio Onda Azul, de Puno. Foto: La República.

De su solitario recorrido, Lorenzo recolectó más de dos mil horas de locuciones. Las radios Titanka, de Andahuaylas; Onda Azul, de Puno, y otras veinte cedieron sus grabaciones para que las escuchen en Lima.

Estos audios han sido incorporados en el «Corpus» del idioma quechua sureño, una gran base de datos de voces y textos en este idioma. Sin este material sería imposible desarrollar herramientas digitales que permitan, por ejemplo, reconocer el quechua con solo oírlo, o convertir el idioma de voz  a texto. Una iniciativa poco difundida hasta el momento.

El Corpus, o biblioteca de voces, es el insumo de una propuesta mayor: Quechua ASR, el más importante proyecto a nivel mundial que busca preservar el quechua con el uso de la inteligencia artificial. Consiste en desarrollar un programa (software) que sea capaz de reconocer locuciones en este idioma, y convertirlas en texto.

El creador

«¿Imaginas que computadoras, smartphones y robots hablaran en quechua? Lo estoy haciendo realidad». Este mensaje fue publicado hace dos semanas por el usuario Atuq Kamachikuq en Facebook. Este hombre, cuya imagen de perfil es un zorro (Atuq, en quechua), y que lanza el misterioso anuncio, es el ingeniero electrónico Luis Camacho Caballero, el creador de Quechua ASR. «Una característica del zorro es la astucia. Y sí, se necesita astucia y audacia para llevar a cabo este proyecto —dice—. Por eso es que me he rebautizado».

Luis Camacho, investigador de la Pontificia Universidad Católica del Perú (PUCP), 43 años, chalaco, de padres y abuelos quechuahablantes, ganador de una beca de la The Linux Foundation, se demoró siete años en plantear este proyecto. Lo hizo después de que lingüistas como  el británico David Crystal y el holandés Willem Adelaar advirtieran la próxima desaparición de miles de lenguas en el planeta, entre ellas, el quechua.

Luis_Camacho_Proyecto_PUCP

Luis Camacho, 43 años, dice que es el proyecto de su vida. Foto: La República. 

«A menos que se haga un intenso trabajo —subraya Camacho—, todos nuestros idiomas nacionales habrán perecido antes del fin de este siglo».

Y eso es lo que quiere evitar con el Quechua ASR. En una primera etapa, esta herramienta computacional facilitará la creación de un registro del quechua a través del Corpus.  Es decir, ayudará a almacenar las palabras que generalmente son transmitidas de forma oral.

También permitirá utilizar dictáfonos para la redacción de textos, como correos electrónicos, sin la necesidad de usar el teclado. Bastará con que uno hable, como ocurre con otras aplicaciones, para que la computadora procese el sonido y lo convierta en texto.

Una vez que funcione esta tecnología buscarán crear un traductor de voz a voz (similar al Google Translate). Así, cuando una persona hable en quechua, la máquina será capaz de indentificar la locución y traducirla al inglés, chino, castellano, etc.  Se espera que esté listo para el bicentenario del Perú (2021).

Este investigador, que habla inglés, portugués, alemán, y desde al año pasado lleva clases de quechua, añade un objetivo: crear una máquina capaz de sostener una conversación en el idioma de sus padres nacidos en Abancay. Un sistema que pueda responder en su lengua, similar al asistente Jarvis de Ironman, o al popular Siri creado por Apple.

Camacho y su equipo multidisciplinario apuestan por recuperar la lengua materna de cuatro millones de personas dentro del Perú y de otros cuatro millones en el extranjero. Lo hacen pese a que, en la práctica, el castellano se ha convertido en el único idioma oficial. Los científicos Reynaldo Baquerizo, de la PUCP; Ronald Cárdenas, de la Universidad Nacional de Ingeniería; Rodolfo Zevallos y Nelsi Melgarejo, de la Universidad Nacional del Callao; y el único quechuahablante del equipo, Lorenzo Ruiz, también comunicador de la Universidad Antonio Ruiz de Montoya, trabajan junto a Camacho en el procesamiento de los materiales en quechua (grabaciones radiales, televisivas, textos de la Constitución y versículos de la Biblia).

Buscadores de voces

El equipo ha crecido un poco. Hasta la fecha, 1.050 quechuahablantes se han sumado a esta cruzada colaborando de manera gratuita con la grabación y transcripción de los audios a fin de alimentar la biblioteca de voces (Corpus). Pero el número aún es insuficiente.

El programa Quechua ASR está avanzado a un 60%. Lo que se requiere para su desarrollo son diez mil horas de audio en quechua debidamente transcritas. Por eso, buscan con urgencia a más quechuahablantes.

Quechua ASR_1

Los investigadores usan modelos matemáticos y estadística avanzada para crear el programa. Foto: La República.

También se necesitan a los profesores de Educación Intercultural Bilingüe del Ministerio de Educación; los traductores e intérpretes del Ministerio de Cultura; el patrocinio de entidades privadas que apuesten por esta única iniciativa a nivel mundial. Hasta el momento, este proyecto ha recibido el apoyo de la PUCP y Concytec.

Hace una semana se lanzó el recolector de Corpus Kuelap (kuelap.telecom.pucp.edu.pe/corpus), el cual permitirá que cualquier persona cuya lengua materna sea el quechua pueda aportar con la transcripción de audios. Esto ayudará a perfeccionar el proyecto, cuya versión beta, estará lista en diciembre.

Por lo pronto, en el país existen correctores de textos en quechua, y traductores de voz a voz que, si bien no han sido creados por este equipo, serán alimentados por su «Corpus». Todo para evitar que se silencie esta cultura y que desaparezcan algunas prácticas ancestrales.

Capacitación_Quechua

Voluntarios reciben capacitación sobre quechua. Foto: La República.

Camacho asegura que, una vez que se culmine con este proyecto, se elaborarán grandes Corpus con lenguas amazónicas. «Mi gran sueño es realizar la portabilidad computacional de todos los idiomas sudamericanos», dice. El quechua es el primer paso. Es la gran lucha por el idioma de sus padres, de sus abuelos, de su sangre, y de los miles de peruanos que, como Lorenzo, no quieren ocultar su voz. Chay mana qullunampaq (Para que no se extinga).

Se buscan voluntarios

Las personas cuya lengua materna es el quechua y quieran sumarse al proyecto pueden ingresar al Kuelap Corpus (kuelap.telecom.pucp.edu.pe/corpus).

Se busca financiamiento

El proyecto necesita el apoyo de empresas auspiciadoras. Pueden escribir al correo camacho.l@pucp.pe

Maestros

La iniciativa ha incluido capacitaciones a los quechuahablantes voluntarios.