Una oportunitat de futur

L'estadística és la ciència que permet aprendre de les dades, un tresor en brut, ja sigui fent prediccions o buscant correlacions. El moviment 'big data' privilegia precisament aquest últim aspecte. Sigui com sigui, és una oportunitat de creixement per a tots els països. Una altra cosa és si sabrem aprofitar-la.

Una oportunitat de futur_MEDIA_2

Una oportunitat de futur_MEDIA_2 / FERRAN NADEU

4
Es llegeix en minuts
TOMÀS ALUJA

Des de l'any 2008 un nou paradigma s'escampa per les empreses i les universitats: big data. D'aleshores ençà han aparegut multitud d'articles, congressos, revistes científiques i àdhuc articles en diaris generalistes per al gran públic. La pregunta és: ¿estem en presència d'un nou paradigma científic o es tracta simplement d'un nou format de mètodes preexistents? En primer lloc, cal constatar que el terme big data comprèn dos grans camps científics; l'un dedicat a la gestió de dades massives i les tecnologies que això implica, i el segon dedicat a l'anàlisi i l'explotació d'aquestes dades, que podem anomenar big data management i big data analytics. Sense cap mena de dubte, el primer d'ells ha produït una disrupció científica important: la combinació del cloud computing, les tecnologies lligades als mòbils, la internet de les coses i les xarxes socials creen unes condicions úniques per a l'aparició de noves tecnologies de gestió de dades massives i no (o poc) estructurades. Tanmateix, l'emmagatzemament sense anàlisi i explotació seria inútil. És sobre aquest últim aspecte que em referiré en aquest article.

Els que ens dediquem a l'estadística estem acostumats a veure aparèixer nous termes amb denominació suggeridora, tal fou el concepte de data mining aparegut a principis dels anys 90, o el concepte de business intelligence aparegut poc després, també analytics i més recentment big data i, per últim, data science. Tanmateix, en les definicions que dóna Wikipedia és difícil de diferenciar els uns dels altres. En realitat, els mètodes i algorismes que utilitzen provenen sobretot del camp de l'estadística i del machine learning. L'estadística és la ciència que permet aprendre de les dades. I això és així perquè les dades presenten el que anomenem regularitat estadística, conferida pel mateix fenomen que les ha generat. Per exemple, es pot observar que com més anys d'estudi de les persones, el salari augmenta de mitjana. És aquesta regularitat la que ens permet inferir quina és la relació entre els anys d'estudi i la renda de les persones; com si gràcies a l'estadística poguéssim albirar les relacions veritables fora de la cova de Plató. Per aquesta raó, les dades s'han convertit en una nova força motriu de la societat de la informació. La capacitat per aprendre de les dades permet prendre decisions de forma més ràpida i acurada, i adaptar-se millor a l'entorn. Les dades són un tresor en brut.

Per extreure la informació subjacent a les dades cal recórrer als mètodes de l'estadística i del machine learning. Aquests mètodes, simplificant-ho molt, els podem agrupar en mètodes per cercar correlacions o mètodes per fer prediccions. L'estadística clàssicament ha privilegiat aquest últim. En canvi, el moviment big data privilegia la cerca de correlacions. És a dir, no cal tenir un model de predicció, per exemple, de la probabilitat de comprar un vi determinat en un moment i un lloc concret; n'hi ha prou sabent si el potencial comprador té les característiques de les persones a qui agrada el vi en qüestió. Això és relativament fàcil de detectar i porta a pensar que amb les dades disposem d'una solució universal per a tots els problemes.

Les coses, però, no són tan fàcils. Si bé és cert que el volum de dades creix exponencialment, no passa el mateix amb la quantitat d'informació útil. Moltes de les dades són redundants o són soroll. És clar que com més dades tinguem, més hipòtesis podrem investigar, però el risc de trobar falsos positius també s'incrementa. No hi ha més relacions veritables per més dades que es tinguin. La innovació aportada pel big data analytics consisteix bàsicament en la paral·lelització dels algorismes, no en un canvi de paradigma científic. L'explosió de les dades no obvia la necessitat de tenir un marc teòric per al problema que es vol resoldre. Les dades no parlen per si mateixes, som nosaltres que parlem per elles.

Som el que fem

Un aspecte rellevant en big data és la privacitat de les persones. Som el que fem i analitzant el que fem podem saber com som. Una bona part de les dades són generades per nosaltres mateixos. Per exemple, amb la navegació acumulada d'un any es poden inferir molts comportaments dels navegants. Sobre aquest aspecte és clar que cal una regulació supranacional. Al mateix temps, no està de més assenyalar que gràcies a les Tecnologies de la Informació i la Comunicació existeix com mai el que s'anomena subvigilància, això és, el control fet pels de sota.

Notícies relacionades

Un altre aspecte a remarcar és la contribució del big data a l'increment del PIB d'un país. Segons l'International Data Corporation en el seu informe d'octubre 2015 sobre el Mercat Europeu de les Dades, l'increment previst de treballadors en els països de la zona EU28 entre el 2015 i el 2020 s'estima en 2,5 milions, amb un increment de l'1,14% de la participació del sector de les dades en el PIB durant el mateix període.

Un exemple de les noves oportunitats que genera el big data és la seva utilització en l'educació, sens dubte el principal repte de la nostra societat. Al laboratori inLab de la Facultat d'Informàtica de Barcelona de la UPC estem treballant en un projecte de learning analytics per tal que els professors de secundària puguin personalitzar millor l'aprenentatge a les necessitats de cada estudiant. El big data representa una oportunitat de creixement i millora per a tots els països. La pregunta és si sabrem aprofitar-lo.