Cal utilitzar les dades massives per la millora social

12 gener 2017
Comments 0
12 gener 2017, Comments 0

Per: Frederic Udina, expert del Big Data Working Group, Director de l’Institut d’Estadística de Catalunya (IDESCAT).

El big data és una gran oportunitat de negoci per a les empreses. El big data ha nascut per iniciativa de l’empresa privada tot i que va ser afavorit per l’aparició d’internet que va ser una iniciativa pública. És bo que la iniciativa privada desenvolupi les aplicacions de les dades que poden generar benefici per la pròpia empresa i revertir en serveis desitjats pels usuaris. Cap problema. O, si em permeteu, gairebé cap problema. Deixant per més endavant el tema de la privacitat i de l’ús de informació personal, el tema que més ens hauria de preocupar en el desenvolupament del big data com a negoci és la tremenda tendència dels negocis en aquesta àrea a concentrar els ingressos i els guanys en poques mans, deixant xavalla per la majoria dels participants. Es pot argumentar que aquesta és una tendència general de l’economia del segle XXI, però és una tendència particularment agressiva entre les empreses el negoci de les quals és la informació, les dades. La desproporció entre el volum i la rapidesa d’acumulació de guanys d’empreses com Google, Facebook o Airbnb comparat amb els petits beneficis que obtenen els seus clients és de magnituds mai vistes fins les darreres dècades. No és aquest el lloc ni la ocasió per entrar en aquest tema, però no volia deixar-lo passar sense fer-ne esment.

Admès que és bo i desitjable que les empreses treguin profit econòmic de l’explotació de les dades massives, voldria concentrar aquesta aportació en el tema que realment m’interessa: quin és el profit, i com obtenir-lo, que es pot extreure de les dades massives per al bé comú, per al bé social, per a la millora de la societat i de les condicions de vida dels ciutadans, per a l’anàlisi, avaluació i millora de les polítiques públiques. Diguem-ne de tot això el bé comú de moment, ja afinarem més endavant.

Hi ha dos aspectes a tractar prèviament per enfocar l’ús de les dades massives per al bé comú: la propietat de les dades en qüestió i els límits que el respecte de la privacitat imposa al seu ús i difusió.

La propietat privada de la gran majoria de les dades del big data és un fet. Però que siguin privades no pot ser un obstacle definitiu per al seu ús en favor del bé públic. Alguns països ja han desenvolupat eines legals per donar dret a l’accés a dades propietat d’empreses privades per part d’organismes públics amb finalitats exclusivament estadístiques i això permet utilitzar-les i sobretot utilitzar-les conjuntament amb informació d’origen administratiu, l’autèntic filó d’or de la estadística pública. Però llavors apareix un altre obstacle: molta de la informació big data no és només de propietat privada sinó que pertany a empreses estrangeres o multinacionals que queden fora de la legislació nacional. Idealment això s’hauria d’enfocar a un nivell com a mínim de la Unió Europea obligant a aquestes empreses a facilitar la reutilització de les seves dades per a finalitats estadístiques, possiblement amb reconeixement del dret a rebre compensacions econòmiques per les despeses que això els pugui produir. Però també cal buscar altres vies d’accés a la informació, com de fet ja existeixen en alguns casos. Pot ser interès de les pròpies empreses facilitar part de la informació que tenen sobre els seus productes, com fa per exemple twitter quan facilita informació sobre la localització geogràfica de les piulades fetes amb dispositius mòbils. També pot ser interessant la pressió que poden fer les administracions públiques condicionant la contractació de serveis a la cessió de dades o a la seva publicació com a dades obertes.

L’altre gran tema que afecta a l’ús del big data per a la millora del bé comú és la privacitat.  Per exemple, si volem utilitzar dades de mobilitat de telèfons mòbils i fer-les públiques, hi ha el perill que es pugui re-identificar un aparell individual i per tant poder seguir els moviments d’una persona. En aquest cas, difonent només dades agregades es pot obviar el problema, a costa de perdre part de la informació. Curiosament ens trobem de vegades que més que la preservació de la privacitat a les companyies telefòniques els pesa més la por, diria fins i tot el pànic, que els seus clients percebin que es cedeixen les seves dades. Seria per tant important algun codi de bones pràctiques que facilités la auto-regulació de les empreses propietàries alhora que permetés la utilització pública de una bona part de les dades. En l’ús de dades, i més si es tracta de dades massives, no és possible eliminar totalment els riscos per a la privacitat. I no oblidem que sempre hi haurà dues menes de riscos: els deguts a una voluntat d’utilitzar les dades per a benefici sense consentiment i els derivats de manca de seguretat. Per tant, caldrà sempre ser curosos en el seu ús, magatzem i transmissió, però també ser molt actius tant en l’autoregulació com en la cerca i el disseny de mètodes que permetin l’explotació segura de les dades. Així, ja en el disseny de les bases de dades cal separar les dades que permeten identificació directa i regular estrictament el seu tractament. D’altra banda, l’anàlisi rigorós dels riscos de seguretat i l’aplicació de les mesures adequades per a la prevenció ha d’acompanyar una política de transparència i de facilitar l’accés a la informació al actors afectats.

Però fixem-nos-hi bé, sigui big data, open data o admindata, el que és important és com ho hem de fer per tal que l’ús de les dades reverteixi en bé del conjunt de la societat. I en aquest sentit, tot i que podríem senyalar algunes iniciatives interessants, hi ha molt camí per córrer. Les administracions han de poder convenir amb les empreses propietàries de les dades per reutilitzar-les, possiblement prèvia combinació amb les dades que en diem admindata, dades d’origen administratiu. Els organismes responsables de l’estadística pública han de ser capaços d’utilitzar les noves fonts d’informació per posar al dia els mètodes de producció. Hi ha alguns problemes gens fàcils de superar per aconseguir-ho: pel seu origen, el big data té manca d’universalitat, estandardització i comparabilitat, tres propietats que són important per a l’estadística pública. La universalitat és important, si volem reflectir com és la societat o el país, no podem fer-ho només usant dades de la gent o les empreses que estan a les xarxes socials, per dir-ho ràpid. L’estandardització és important per poder fer interpretació correcta de les dades, i el big data evoluciona tant ràpid que és difícil d’estar segur què i com estem mesurant quan, per exemple, tenim milions de dades sobre transaccions de tares de crèdit. La comparabilitat, en el temps i en l’espai és fonamental per a un bon ús de les dades. Serà important poder comparar el que mesurem avui amb el que vam mesurar l’any passat o el què farem d’aquí cinc anys, tant com serà important poder comparar la nostra situació amb la de països veïns. Aquests problemes es poden superar mitjançant la integració de les dades massives amb la dades provinent fonts com l’admindata o les enquestes, que són més lentes, menys detallades i potser més cares, però que tenen la universalitat, l’estandardització i la comparabilitat que manca al big data.

Podem trobar exemples d’un bon ús de les dades per al bé social. Dades de mobilitat telefònica s’estan fent servir per millorar la planificació del transport públic. La gran capacitat de recol·lecció i integració de dades del sistema de salut català pot proporcionar, i s’estan posant les bases per fer-ho, un gran cabdal de coneixement al servei dels investigadors per a la millora de la salut de la població. I combinant dades de salut amb dades de medi ambient, de condicions de vida, d’educació, justícia o criminalitat es pot arribar a escatir quins són els factors que permetrien millorar la salut i les condicions de vida dels ciutadans, on val la pena invertir capital i esforços socials de manera eficient per la millora de les polítiques públiques.

Per concloure, i conscient que deixo més qüestions obertes que no respostes, un comentari sobre el problema de la privacitat versus l’ús públic de les dades, siguin big o small. Per poder fer anàlisis interessants dels efectes de, posem per cas, les polítiques públiques sobre les persones, com més detallades siguin les dades que disposem més riques seran les conclusions possibles. Però si hem de treballar amb dades personals no ens podem enganyar, l’anonimització no és possible. Si tenim prou informació, sempre serà possible re-identificar els individus amb què treballem. Llavors ens queden dues vies de treball: d’una banda podem difondre informació agregada que pugui ser pública sense risc de re-identificació, i d’això en diem open data, o podem restringir l’ús de la informació més detallada i rica a les persones o institucions que poden donar garanties que no faran cap procés de re-identificació ni difusió de cap característica individual.

 

 

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies
Do NOT follow this link or you will be banned from the site!