4
Es llegeix en minuts
El Periódico

Investigadors de la Universitat de Califòrnia, a San Francisco, i de la Universitat de Berkeley, als EUA, han desenvolupat una interfície cervell-ordinador (BCI, per les seves sigles en anglès) que ha permès parlar a través d’un avatar digital a una dona amb paràlisi greu provocada per un vessament cerebral.

És la primera vegada que se sintetitzen la parla i les expressions facials a partir de senyals cerebrals, asseguren els investigadors a la revista ‘Nature’. El sistema també pot descodificar aquests senyals en text a gairebé 80 paraules per minut, cosa que suposa una gran millora respecte a la tecnologia disponible en el mercat.

El doctor Edward Chang, catedràtic de cirurgia neurològica de la UCSF, que fa més d’una dècada que treballa en aquesta tecnologia, coneguda com a ‘interfície cervell-ordinador’ (BCI, per les seves sigles en anglès), espera que aquest últim avanç de la investigació condueixi en un futur pròxim a un sistema aprovat per la FDA que permeti parlar a partir de senyals cerebrals.

«El nostre objectiu és restablir una forma de comunicació plena i corporal, que és realment la manera més natural de parlar amb els altres –afirma Chang, membre de l’Institut Weill de Neurociència de la UCSF i catedràtic distingit de Psiquiatria Jeanne Robertson–. Aquests avanços ens acosten molt més a convertir-ho en una solució real per als pacients».

L’equip de Chang va demostrar anteriorment que era possible descodificar els senyals cerebrals en text en un home que també havia tingut un ictus al tronc encefàlic molts anys abans. L’estudi actual demostra una cosa més ambiciosa: descodificar els senyals cerebrals en la riquesa de la parla, juntament amb els moviments que animen el rostre d’una persona durant la conversa.

Zones fonamentals

Chang va implantar un rectangle fi com el paper de 253 elèctrodes a la superfície del cervell de la dona, en zones que el seu equip ha descobert que són fonamentals per a la parla.

Els elèctrodes van interceptar els senyals cerebrals que, si no hagués sigut per l’ictus, haurien anat a parar als músculs de la llengua, la mandíbula i la laringe, així com a la cara. Un cable, connectat a un port fixat al seu cap, connectava els elèctrodes a un banc d’ordinadors.

Durant setmanes, la participant va treballar amb l’equip per entrenar els algoritmes d’intel·ligència artificialdel sistema a reconèixer els seus senyals cerebrals únics per a la parla. Per a això, va repetir una vegada i una altra diferents frases d’un vocabulari conversacional de 1.024 paraules, fins que l’ordinador va reconèixer els patrons d’activitat cerebral associats als sons.

En lloc d’entrenar la IA perquè reconegués paraules senceres, els investigadors van crear un sistema que descodifica paraules a partir de fonemes. Aquests són les subunitats de la parla que formen paraules parlades de la mateixa manera que les lletres formen paraules escrites. ‘Hola’, per exemple, conté quatre fonemes: ‘H’, ‘O’, ‘L’ i ‘A’.

Amb aquest mètode, l’ordinador només necessitava aprendre 39 fonemes per desxifrar qualsevol paraula en anglès. Això va millorar la precisió del sistema i ho va fer tres vegades més ràpid.

«La precisió, la velocitat i el vocabulari són crucials –assegura Sean Metzger, que va desenvolupar el descodificador de text juntament amb Alex Silva, els dos estudiants de postgrau del Programa Conjunt de Bioenginyeria de la UC Berkeley i la UCSF–. És el que dona a un usuari la possibilitat, amb el temps, de comunicar-se gairebé tan ràpid com nosaltres i mantenir converses molt més naturalistes i normals».

Algoritme per simular la veu

Per crear la veu, l’equip va idear un algoritme per sintetitzar la parla, que van personalitzar perquè sonés com la veu d’Ann abans de la lesió, utilitzant una gravació d’Ann parlant al seu casament.

L’equip va animar l’avatar amb l’ajuda d’un ‘software’ que simula i anima els moviments musculars de la cara, desenvolupat per Speech Graphics, una empresa que fa animacions facials basades en la IA.

Els investigadors van crear processos personalitzats d’aprenentatge automàtic que van permetre al ‘software’ de l’empresa engranar els senyals que enviava el cervell de la dona mentre intentava parlar i convertir-los en els moviments de la cara de l’avatar, fent que la mandíbula s’obrís i tanqués, els llavis sobresortissin i s’arruguessin i la llengua pugés i baixés, així com els moviments facials de felicitat, tristesa i sorpresa.

«Estem compensant les connexions entre el cervell i el tracte vocal interrompudes per l’ictus –explica Kaylo Littlejohn, estudiant de postgrau que treballa amb Chang, i el doctor Gopala Anumanchipalli, catedràtic d’Enginyeria Elèctrica i Informàtica de la UC Berkeley–. Quan el subjecte va utilitzar per primera vegada aquest sistema per parlar i moure la cara de l’avatar alhora, vaig saber que això seria una cosa que tindria un impacte real».

Notícies relacionades

Un pròxim pas important per a l’equip és crear una versió sense fil que no requereixi que l’usuari estigui físicament connectat a la BCI.

«Donar a les persones la capacitat de controlar lliurement els seus propis ordinadors i telèfons amb aquesta tecnologia tindria profunds efectes en la seva independència i les seves interaccions socials», diu David Mo.