Entrevista

Oriol Vinyals, el català que lidera la intel·ligència artificial de Google: «No entenem bé ni el nostre cervell ni la IA»

El matemàtic i enginyer de telecomunicacions català, vicepresident de Google DeepMind i investit doctor honoris causa per la UPC, ha liderat el desenvolupament tècnic de Gemini, rival de ChatGPT i actualment el model d’IA generativa multimodal més potent del món

Oriol Vinyals, vicepresidente de Google DeepMind y colíder de Gemini, el modelo de IA más potente del mundo.

Oriol Vinyals, vicepresidente de Google DeepMind y colíder de Gemini, el modelo de IA más potente del mundo. / Ben Peter Catchpole

9
Es llegeix en minuts
Carles Planas Bou
Carles Planas Bou

Periodista

Especialista en tecnologia i el seu impacte sociopolític.

Ubicada/t a Barcelona

ver +

Quan només era un nen, a Oriol Vinyals (Sabadell, 1983) li agradava fer preguntes sobre matemàtiques al seu pare mentre pujaven la muntanya de la Mola. D’adolescent, anava a cibercafès a jugar al videojoc StarCraft i va quedar fascinat amb la pel·lícula 2001: Una odissea de l’espai. Poc imaginava que aquesta passió seria la seva porta d’entrada a Google. Avui, als 42 anys, és una prestigiosa autoritat mundial en l’aprenentatge profund (deep learning), una de les tècniques més punteres de la intel·ligència artificial.

Aquest matemàtic i enginyer computacional català és, des del 2016, vicepresident d’investigació de Google DeepMind, el cèlebre laboratori dIA del gegant tecnològic californià. Des d’allà, lidera el desenvolupament tècnic de Gemini, rival de ChatGPT i actualment el model de llenguatge més potent que existeix. La influència de les seves investigacions queda fora de dubte: és el cinquè científic més citat del món en el seu àmbit.

Vinyals atén EL PERIÓDICO abans de ser investit doctor honoris causa per la Universitat Politècnica de Catalunya (UPC), alma mater en la qual va cursar una doble titulació abans de doctorar-se a la Universitat de Califòrnia a Berkeley i, d’allà, fer el salt a Silicon Valley.

La setmana passada vau llançar Gemini 3, el vostre model d’IA més potent, i fins i tot Sam Altman ha reconegut internament que l’avanç de Google podria «crear alguns obstacles econòmics temporals» a OpenAI. ¿Quin salt suposa?

La fórmula bàsica no canvia gaire. Hem aconseguit un salt important en el preacord, la fase en què fem que el model entengui totes les dades d’internet i les seves correlacions, gràcies a canvis en l’arquitectura. I aquesta és la part més important. També hem millorat moltíssim en l’entrenament posterior, en el qual s’adapta a l’ús que donarà als usuaris, per exemple per fer de xatbot.

¿I en què continua fallant?

El posttraining és el camp on hi ha més espai per millorar. Encara ens queda molt per descobrir, més si ho comparem amb els sistemes que hem creat per jugar a jocs. Amb els grans models de llenguatge (LLM), millorar el rendiment no tracta de guanyar una partida, sinó de determinar si el resultat que ha fet Gemini a la teva pregunta és bo, i això és molt més difícil.

Les ‘apps’ de DeepSeek, ChatGPT i Google Gemini /

Andrei Rudakov / Bloomberg

Llanceu models cada vegada més potents. ¿Es pot continuar escalant la IA si hi ha un coll d’ampolla de bones dades per entrenar-nos?

No hem de pensar en una IA cada vegada més i més gran, si bé augmentar la mida ajuda. Si poses el model a l’abast de milions de persones, com fa Google, no vols que siguin molt grans perquè llavors no pots comercialitzar-los a preus barats per als usuaris. Una de les maneres d’escalar-lo és a través d’innovacions científiques perquè gasti menys energia en generar cada paraula. És cert que ja estem utilitzant pràcticament totes les dades de qualitat que hi ha a internet. Però encara trobem vies perquè cada model sigui millor que l’anterior.

Ja estem utilitzant pràcticament totes les dades de qualitat que hi ha a internet

¿És una opció entrenar els models amb dades generades per IA?

Sí, és un tema que estem investigant i és una bona idea que, en alguns aspectes, està donant bons resultats. Però també pot propagar els errors d’altres models i això és problemàtic perquè podria empitjorar les IA futures.

L’informe State of AI 2025 adverteix que l’energia és un altre coll d’ampolla.

El cost energètic és molt alt, però és un canvi bo perquè significa que la tecnologia està arribant a tothom. No és un cost excepcional perquè hi ha microprocessadors cada vegada més eficients. Les empreses que volen crear IA també estan interessades a tenir sostenibilitat econòmica i inverteixen en maneres de reduir aquest cost energètic. I gràcies a la tecnologia serà cada vegada més baix.

Centre dades de Google, al costat del riu Colúmbia, als EUA /

warewater

Però, com indica la Paradoxa de Jevons, la introducció de tecnologies amb més eficiència pot desembocar en un consum total més alt d’energia.

Sí, és cert. Quan afegeixes un carril a l’autopista més cotxes circulen per allà. Però és un bon problema, significa que la gent vol utilitzar la teva tecnologia. En termes d’escalabilitat, ja hi ha tanta gent que utilitza IA com el cercador de Google. Pot ser que la demanda d’energia augmenti, però nosaltres hem tingut la previsió que els nostres centres de dades siguin neutrals en CO2. Ara, és possible que, si la demanda és molt gran, Google hagi subestimat una mica l’augment computacional dels pròxims anys. També pot ser que hi hagi un avanç per respondre a aquesta necessitat d’energia. Hi ha diversos motius per ser optimistes, però sempre vigilant.

És possible que, si la demanda d’energia és molt, molt gran, Google hagi subestimat una mica l’augment computacional dels pròxims anys

Ramón López de Mántaras, pioner de la IA a Espanya, em va explicar que les anomenades al·lucinacions, els errors, són un problema «inherent» de la IA generativa. ¿No tenen cura?

És el problema, potser inherent, d’entrenar els models amb dades d’internet. Pot ser que mai se solucioni perfectament, però sabem com millorar cada generació d’IA. ¿Serà perfecta al 100%? Impossible. Però podem minimitzar els errors. Hi ha molt marge de millora i primer es corregirà en anglès que en castellà o català.

En DeepMind heu aconseguit crear sistemes que aprenen de la seva experiència per superar els humans en jocs com StarCraft o Go. ¿És això extrapolable a una IA que entengui el món?

És més difícil perquè el món és més complex. Avaluar si guanyes o perds una partida d’un joc de taula és fàcil, però és molt més complicat quan vols ajudar usuaris molt diferents amb una infinitat de coses. Ordenar una tasca concreta com guanyar és fàcil, però fer el que vulgui l’usuari –escriure un poema, resumir un llibre, dibuixar alguna cosa...– no ho és tant. La dificultat tècnica rau a saber com avaluar cada LLM, però també a definir matemàticament cada tasca.

Demis Hassabis, director executiu de Google DeepMind, assegura que la IA està «aprenent a sentir» i que podria igualar o superar la cognició humana abans del 2030. ¿Quines evidències hi ha d’això?

Els models són simulacions probabilístiques que aprenen de com ens comuniquem els humans, així que el que fa és simular que sent, que té emocions. N’hi ha alguns de tan avançats en llenguatge que se’ls veu una certa personalitat, tot i que no acaba de ser un humà. Aquesta simulació ens ajuda a entendre la tecnologia d’una manera més humana i menys com una màquina. Crec que serà important tenir una connexió emocional a cert alt nivell amb la IA. Si aquest artefacte fa que la comunicació sigui més òptima, ens agradi més i ens ajudi a solucionar problemes del dia a dia, llavors serà benvingut. I potser mai sabrem si hi ha alguna cosa sota la superfície de les paraules que el model escriu.

Els models són simulacions probabilístiques que aprenen de com ens comuniquem els humans, així que el que fan és simular que tenen emocions

¿On traça la frontera entre comprensió i simulació?

És molt difícil. Encara no entenem del tot com funciona el cervell humà, així que amb un sistema nou costarà molt. És una qüestió emocionant. Avui, aquestes emocions són clarament simulades.

Esteu desenvolupant sistemes que són caixes negres. ¿No sabeu per què responen el que responen?

Quan el sistema falla pots mirar d’entendre a què es deu. Per exemple, una cosa divertida és que sabem que si s’equivoca a l’identificar quantes erres té la paraula strawberry això pot deure’s que internet és ple d’aquests errors i a l’entrenar el model amb les dades d’internet es crea un senyal equivocat que no dona la resposta correcta. Però si observem el model i mapegem el que se li demana i el que respon llavors hi ha molta menys claredat, com també passa amb el funcionament de la nostra ment. No entenem massa el nostre cervell després de segles d’estudi i tampoc entenem bé aquests sistemes nous.

Demis Hassabis i John M. Jumper, de Google DeepMind, guanyadors del premi Nobel de química /

Toby Melville / Reuters

Aquest cap de setmana es compleixen tres anys del llançament de ChatGPT, que ha accelerat una carrera comercial en el sector. ¿Com ha canviat la teva vida?

Des que vaig començar a Google el 2013 he viscut diverses fases. En els primers dies tot era molt acadèmic, d’investigar, publicar papers i demostrar als altres que aquesta tecnologia era una cosa bona. Quan vaig entrar a DeepMind el 2016 les investigacions ja eren una mica més grans. ChatGPT va ser molt mainstream; va crear una nova font d’usuaris i va obrir la porta a noves inversions en els projectes que estava liderant. Ara, hi ha més intensitat i estem més centrats. El model [d’IA] és el motor dels productes que ara Google distribueix. Així que tots els que estem en el projecte estem al màxim. Fins i tot Serguei [Brin cofundador de Google] ve cada dia a l’oficina i Sundar [Pichai, director general] passa hores xerrant amb l’equip.

Des de ChatGPT, hi ha més intensitat. Fins i tot Serguei Brin [cofundador de Google] ve cada dia a l’oficina.

¿Com explicaries el teu càrrec a algú que no sàpiga d’IA?

Resumint molt, ajudo l’equip que desenvolupa models d’IA a prioritzar quines idees s’investiguen.

Des de la indústria s’insisteix a convertir la IA en un ‘agent’ que ho faci tot per tu. ¿Quina visió voleu aconseguir?

En el món físic hi ha la robòtica, que sempre sembla que crearà una cosa així en els pròxims cinc anys i mai acaba passant. En el digital, el model que impulsem pot tenir accés a internet i al teu ordinador per fer coses increïbles, com planificar una reunió o organitzar un viatge. Més enllà de qüestions d’usabilitat i seguretat que estem estudiant, crec que aquests ‘agents’ es popularitzaran en els pròxims anys. Ja s’aplica en la ciència –jo mateix– i aquesta automatització pot augmentar als científics i impulsar salts massius en nínxols com la IA, els supermaterials o l’energia de fusió.

Notícies relacionades

El gran èxit de DeepMind és AlphaFold, que va guanyar el premi Nobel de química. ¿És la ciència el camp més fèrtil per la IA?

Hi ha el biaix que apliquem la IA a la ciència perquè els qui l’hem creat som científics. Però també hi ha bastantes oportunitats en àrees amb molt impacte.