Article de Pere Puigdomènech Opinió Basada en interpretacions i judicis de l’autor sobre fets, dades i esdeveniments.

El ‘big data’ canvia com es fa la ciència

La ciència basada en els grans números està donant fruits, però sovint no ens deixa satisfets per diferents raons. Una és que els algoritmes produïts no es plantegen trobar l’explicació del que s’estudia

3
Es llegeix en minuts

Els grans números (‘big data’) s’estenen pertot arreu. Empreses molt diverses hi basen les seves estratègies i s’han convertit en un gran negoci. Però també estan canviant la manera com es fa la ciència en algunes disciplines. En alguns casos, han demostrat la seva utilitat. En d’altres, aquesta aproximació pot ser discutible. Van apareixent els límits que té aquesta nova manera de fer recerca.

Una de les grans revolucions actuals és l’ús de sistemes que permeten l’adquisició, emmagatzematge i tractament de grans quantitats de dades. Això ho fan possible dispositius que permeten digitalitzar dades d’imatges, veus i documents de tot tipus. Aquestes dades es poden transferir per les nostres xarxes de gran capacitat a ordinadors on es pot guardar aquesta informació i es pot processar de forma ràpida i a baix cost. Els últims anys han anat desenvolupant-se un conjunt de mètodes, que denominem d’intel·ligència artificial, que permeten entendre les tendències que hi pot haver darrere de grans conjunts de dades que tenen a veure, per exemple, amb el comportament o la salut de la gent, però també amb l’evolució dels astres o el plegament de les proteïnes, entre una gran multitud d’exemples.

Aquests mètodes estan canviant la manera de treballar d’algunes disciplines científiques. El mètode científic ens ensenya que, davant un conjunt d’observacions, formulem una hipòtesi que provem amb experiments, i gràcies a aquests podem formular una teoria de la qual es poden deduir prediccions. Aquest procés està trastornat per la denominada ‘ciència dirigida per les dades’ (‘data-driven science’). Davant un fenomen complex, aquesta aproximació parteix de recollir el màxim de dades, gràcies a les quals es genera un algoritme que ens pot servir per fer prediccions que ens interessen, sense que sigui necessari formular cap teoria sobre el fenomen en qüestió. Aquesta aproximació ha demostrat funcionar molt bé en alguns casos importants.

Entretots

Publica una carta del lector

Escriu un post per publicar a l'edició impresa i a la web

Per exemple, una de les preguntes que la biologia molecular s’ha fet des de fa més de 50 anys és com predir el plegament de les proteïnes. Són fibres flexibles que es pleguen a l’espai, cosa que els dona les seves funcions característiques. Això pot ser molt important, per exemple, per dissenyar fàrmacs que inhibeixin la seva funció. Durant tot aquest temps s’han buscat moltes aproximacions per resoldre aquest problema. Finalment, això s’ha aconseguit gràcies a analitzar les dades de les 100.000 estructures de proteïnes conegudes. El programa de predicció es denomina AlphaFold i l’ha fet l’empresa DeepMind, comprada pel grup Google. És una fita extraordinària que ja ha començat a utilitzar-se de forma sistemàtica. Hi ha tota mena de problemes que s’estudien d’aquesta manera en astronomia, per analitzar les enormes quantitats de dades i que ja han permès de trobar nous tipus d’objectes estel·lars i també en medicina, en què s’obtenen cada vegada més dades d’imatges o de genomes que es relacionen amb malalties, entre d’altres.

Notícies relacionades

La ciència basada en els grans números està donant fruits, però sovint no ens acaba de deixar satisfets per diferents raons. Una és que els algoritmes que es produeixen no es plantegen trobar l’explicació del que s’estudia, i s’aparten del mètode científic clàssic i acaben de vegades convertits en caixes negres que inclouen, sovint, simplificacions de les quals no sempre som conscients. Fa falta també tenir en compte que els resultats són tan bons com les dades de les quals es disposa i moltes vegades són incomplets o no són homogenis. Un altre ombra d’aquestes aproximacions és l’ús de grans ordinadors que utilitzen enormes quantitats d’energia i l’empremta de carboni que generen és molt significativa. Finalment, alguns tipus de grans números són objectes comercials de gran valor i estan basats en dades personals que molta gent pot considerar que envaeixen les seves vides. És el cas de les històries clíniques dels pacients, però també de converses o de comportaments personals que voldríem considerar com a íntims. Hi ha límits conceptuals i tècnics en l’ús de les ‘grans dades’, però també límits personals que no desitgem que es violin.