Word Cloud "Big Data"Periodisme de dades: la meva secció d’avui a La Tribu de Catalunya Ràdio.

Ho acabem de comprovar a la genial exposició que fins fa poc s’ha pogut veure al CCCB. Cada cop és més fàcil emmagatzemar grans volums d’informació a baix cost. Cada cop és més fàcil processar aquests grans volums d’informació. I cada cop és més fàcil produir nova informació: per exemple, gràcies als milions de sensors que inunden el món.

Això ha provocat l’explosió de les dades. L’any 2002 va suposar un punt d’inflexió: per primera vegada el món tenia més informació emmagatzemada en format digital que en suports analògics.

I això també ha suposat un repte per als periodistes. Una font d’informació nova, amb un potencial infinit.

Un exemple. Gràcies als tuits que fan els usuaris de Renfe enfadats cada vegada que hi ha retards o avaries, i a la mateixa informació que dóna l’empresa, també per Twitter, podríem fer un gran infogràfic que mostrés en un mapa el caos de Rodalies. De fet, ja hi ha webs que ho mesuren, com rodalia.info. Però podríem convertir tota aquesta informació en un gran reportatge periodístic amb un gran treball de camp, que mostrés les incidències de tot l’últim any.

Així fan servir les dades els grans mitjans per explicar històries:

image

ProPublica (una organització sense afany de lucre que fa periodisme d’investigació als EUA) va fer un extens reportatge sobre el sistema de diàlisi als Estats Units a partir de la pregunta: “Per què era tan dolent?”. I és que, tot i que els EUA invertien més per pacient que la majoria de països industrialitzats, un de cada cinc moria. Durant dos anys, ProPublica va obtenir resultats de més de 5.000 clíniques de diàlisi. Van crear una base de dades habilitada per a consultes externes que mostrava exactament les condicions de cada clínica al país (xifres d’infecció, hospitalització, morts). La pàgina, Dialysis Facility Tracker, supera les 200.000 visites i és anualment actualitzada per ProPublica.

image

El Chicago Tribune publica de manera actualitzada tots els homicidis a la ciutat de Chicago en un mapa. És una informació més rellevant del que pot semblar perquè, creuant dades, podem veure clarament com els barris amb una renda disponible més baixa, els barris més pobres, són on la taxa d’homicidis és més alta.

image

Com triar on anar a sopar a Nova York i estalviar-se ensurts? El Departament de Salut de la ciutat fa públiques totes les seves inspeccions als restaurants. A partir d’aquí, The New York Times va agafar les dades obertes i va crear un gràfic interactiu on es podia saber de cada restaurant les últimes inspeccions que havia rebut. I si hi havien trobat rates, insectes, etc.

Els grans diaris anglosaxons tenen blogs específics dedicats a les dades. Un dels més destacats és el Datablog del diari The Guardian.

El mapa del còlera de John Snow

Un dels primers treballs en visualització de dades el va fer un metge anglès que es deia John Snow. La història és molt curiosa. L’any 1855 hi va haver una epidèmia de còlera molt violenta a Londres. Unes 700 persones van morir en poques setmanes al barri del Soho. Les grans institucions científiques estaven convençudes que la infecció estava causada per la inhalació d’aire contaminat procedent d’aigües estancades. El doctor Snow, però, tenia la teoria que la causa era un germen que es propagava no per l’aire, sinó per l’aigua.

image

Snow tenia la consulta a prop del Soho, de manera que coneixia algunes de les víctimes. El metge va començar a fer un treball de camp visitant tots els edificis de la zona afectada i l’hospital on ingressaven la majoria de les víctimes. Llavors, va agafar un mapa i es va dedicar a anar situant-hi un punt per cada víctima, segons el lloc on vivia. També va posar una creu per cada pou d’aigua on bevien els malalts.

El resultat és molt clar: la major part dels morts s’havien produït a prop de la bomba d’aigua de Broad Street. Fins i tot va esbrinar que les víctimes que no vivien a la zona afectada, treballaven a prop o hi passaven sovint perquè hi vivia algun familiar i, per tant, bevien de l’aigua contaminada.
En canvi, dels 500 treballadors d’un taller de Poland Street, dins la zona de l’epidèmia, només en van morir 5. I resulta que era perquè tenien una bomba d’aigua pròpia dins de l’edifici. El mateix va passar amb una destil·leria que tenia un pou privat. El mapa del còlera de John Snow és un dels primers treballs de visualització de dades que s’ha fet.

Les prediccions de Nate Silver

Nate Silver és un jove estadístic nord-americà que és el responsable de Fivethirtyeight (el nombre de seients al Congrés nord-americà) un mitjà especialitzat només en dades. Va néixer com un blog del NYTimes i ara és un mitjà independent. Representa un nou model de periodisme. Periodisme explicatiu, podríem dir, molt basat en les dades, i amb voluntat didàctica [en vaig parlar aquí].

image

Nate Silver es va fer famós perquè a les eleccions presidencials dels EUA del 2008 va ser capaç d’encertar els resultats de 48 dels 50 estats. Ho va fer gràcies a un complex sistema de càlcul estadístic que té en compte els sondejos electorals i moltes altres variables.

El més curiós és que Nate Silver ve del món del beisbol. Va idear un programa informàtic que a partir de moltíssimes variables estadístiques (com el percentatge de bateig o de home runs) podia calcular el rendiment de cada un dels jugadors. Va obtenir molt bons resultats i es va convertir en un assessor dels clubs de beisbol, que s’adreçaven a ell per fer prediccions i saber quins jugadors havien de fitxar.

És autor d’un llibre que es diu La Señal y el Ruido (editat en castellà per Ediciones Península) en què fa una reflexió sobre el big data: la sobreabundància d’informació pot empitjorar la nostra capacitat de fer pronòstics fiables. De fet, al llibre repassa alguns exemples recents de pronòstics fallits: els efectes de l’Huracà Katrina o la crisi financera del 2008, que pocs economistes van preveure. Tenim més dades que mai i més eines que mai per analitzar-les, però continuem fent errors garrafals.