Polítiques lingüístiques a internet

Així funciona AINA, el projecte perquè la tecnologia entengui el català

  • La Generalitat destinarà 13,5 milions d’euros a una iniciativa de normalització lingüística que necessita la veu dels catalans i a la qual ja han contribuït 50.000 ciutadans

Així funciona AINA, el projecte perquè la tecnologia entengui el català

manu Mitru

3
Es llegeix en minuts
Carles Planas Bou
Carles Planas Bou

Periodista

Especialista en Xarxes, algoritmes i la intersecció entre política i tecnologia

Ubicada/t a Barcelona

ver +

És un consens: l’ús del català agonitza entre els més joves i part d’això es deu a la desigualtat que la llengua viu a internet, que afavoreix les hegemòniques. La Generalitat vol revertir aquesta situació i per això dimarts va presentar AINA, un projecte que pretén que les màquines puguin parlar i entendre el català per agilitar-ne la normalització en l’era digital.

Si intentes dirigir-te en català a Alexa, Siri o Google Assistant, passarà que aquests assistents virtuals no t’entendran ni respondran a la teva petició. Perquè això canviï primer s’ha de crear un corpus massiu de dades, gravar centenars de milers de paraules i frases en català per crear un diccionari de veus en català que permeti als sistemes d’intel·ligència artificial (IA) –des d’assistents a traductors automàtics– aprendre a processar-lo i utilitzar-lo com fan amb altres llengües.

La iniciativa, impulsada pel Departament de Vicepresidència i Polítiques Digitals en col·laboració amb el Barcelona Supercomputing Center (BSC), està operativa des del 2020, però ara s’ha llançat una campanya que demana als ciutadans «donar-hi la seva veu». En tan sols una setmana la pàgina web habilitada per recollir aquestes mostres de veu ja compta amb més de 50.000 registres sonors.

Entrenar les màquines en català

Cada un d’aquests registres servirà per crear una base de dades representativa del català que permeti entrenar algoritmes de Deep Learning –una mena de xarxa neuronal d’aquestes màquines– que després la indústria pugui utilitzar per desenvolupar aplicacions en català. «Fem la tasca lingüística que l’empresa privada local no pot assumir per ser massa costosa i que les grans companyies no fan perquè el català no és un mercat prou atractiu per justificar aquesta inversió», explica a EL PERIÓDICO Marta Villegas, líder del grup de mineria de dades del BSC i responsable del projecte AINA.

La intenció de la Generalitat és normalitzar totes les variants dialectals i registres del català, ja sigui formal o col·loquial. Fins ara, la majoria de veus recollides fins ara són les d’homes d’entre 30 i 50 anys i amb un registre de català central. És per això que la campanya demana que els voluntaris siguin de tota mena d’edats, gèneres i procedències.

La iniciativa ha classificat fins a 1.770 milions de metadades associades a paraules en 95 milions de frases, les variables que calculen necessàries per entendre les peticions més comunes dels usuaris. Els ciutadans que vulguin contribuir voluntàriament a aquesta normalització digital del català poden accedir a la web per gravar-se repetint aquestes paraules i frases. «Com més gran sigui la mostra de dades lingüístiques més robust i perfeccionat serà el sistema de comprensió», explica Villegas. Des del BSC apunten que es desenvoluparà «algun prototip» per demostrar com les màquines també poden aprendre català.

Notícies relacionades

L’actual base de dades compta amb 1.000 hores de registres en català, que la iniciativa pretén duplicar. En la seva missió de recollir la quantitat més gran possible de dades en català, AINA també utilitzarà els arxius de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o del Consell de l’Audiovisual Català (CAC), així com els cedits per organitzacions com Softcatalà, Racó Català o Enciclopèdia.cat. Les primeres dades públiques que el BSC ha utilitzat per alimentar la base han sigut les sessions polítiques del Parlament de Catalunya.

El projecte té un pressupost de 13,5 milions d’euros fins al 2024, dels quals 250.000 es destinaran a la fase inicial. «El català no està cobert per cap assistent de veu, és una cosa crítica», adverteix Villegas. «Si ens acostumem a haver de parlar amb les màquines en un altre idioma, haurem perdut una gran oportunitat».