Tip:
Highlight text to annotate it
X
Il concetto di big data è elusivo.
Rappresenta una quantità di informazioni digitali
scomode da archiviare,
trasportare
o analizzare.
I big data sono cosí voluminosi
da mettere in crisi le tecnologie attuali
e sfidarci a inventare la prossima generazione
di strumenti e tecniche di archiviazione dati.
Comunque i big data non sono una novitá.
Di fatto, i fisici del CERN sono alle prese
da decenni con la sfida della continua espansione dei big data.
Cinquanta anni fa i dati del CERN potevano essere archiviati
in un solo computer.
Certamente non un computer come il vostro,
era un computer mainframe
che occupava un intero edificio.
Per analizzare i dati,
i fisici di tutto il mondo si spostavano al CERN
per connettersi all'enorme macchina.
Negli anni '70 i big data, sempre di piú,
erano distribuiti su diversi computer,
nati come funghi al CERN.
Ogni gruppo di computer era collegato
attraverso reti dedicate.
Ma i fisici collaboravano senza tener conto
dei confini tra i gruppi,
quindi avevano bisogno di accedere a tutti i gruppi di computer.
Cosí mettemmo insieme tutte le reti
nel nostro CERNET.
Negli anni '80 isole di reti simili
che parlavano dialetti differenti,
si diffusero in tutta Europa e negli Stati Uniti,
rendendo possibile l'accesso remoto, ma per vie tortuose.
Per rendere piú facile l'accesso dei fisici di tutto il mondo
ai big data in continua espansione
archiviati al CERN senza bisogno di spostarsi,
le reti avevano bisogno di parlarsi
utilizzando lo stesso linguaggio.
Adottammo il neonato standard internet degli Stati Uniti
seguito dal resto dell'Europa,
e stabilimmo al CERN il principale collegamento
tra l'Europa e gli Stati Uniti nel 1989,
e internet diventó veramente globale!
I fisici allora poterono facilmente accedere
ai terabyte dei big data
attraverso un accesso remoto da tutto il mondo,
generare risultati
e scrivere articoli senza muoversi dai loro istituti.
A quel punto volevano condividre i loro risultati
con tutti i loro colleghi.
Per facilitare questa condivisione delle informazioni,
creammo all'inizio degli anni '90 il web.
I fisici non avevano piú bisogno di sapere
dove erano archiviate le informazioni
per poterle trovare e potervi accedere via web,
un'idea che si è diffusa in tutto il mondo
e ha trasformato il nostro modo di comunicare
nella quotidianità.
Nei primi anni 2000,
la continua crescita dei nostri big data
superó la nostra capacitá di analizzarli al CERN
nonostante avessimo edifici pieni di computer.
Dovemmo cominciare a distribuire i petabyte di dati
ai nostri partner
per sfruttare le capacità di archiviazione e calcolo
di centinai di diversi istituti.
Per orchestrare queste risorse interconnesse
con le loro differenti tecnologie,
sviluppammo una rete computazionale,
che consentiva lo scambio
delle risorse computazionali di tutto il mondo.
Questo scambio si basava sulla fiducia e la reciprocità.
Ma questa rete non poté essere trasferita
così facilmente al di fuori della nostra comunità,
dove non tutti avevano risorse da condividere
né ci si poteva aspettare che le aziende
avessero lo stesso livello di fiducia.
Invece un approccio alternativo, basato sul business
per accedere a risorse on-demand
si è sviluppato recentemente,
chiamato cloud computing,
che altre comunità stanno sviluppando
per analizzare i loro big data.
Può sembrare paradossale per un posto come il CERN,
un laboratorio focalizzato sullo studio
dei blocchi più piccoli della materia,
essere la fonte di qualcosa di enorme come i big data.
Ma il modo in cui studiamo le particelle elementari,
e le forze attraverso le quali interagiscono,
richiede la fugace creazione di particelle
mediante la collisione di protoni nei nostri acceleratori
e la cattura delle loro tracce
mentre si muovono a velocità vicine a quelle della luce.
Per osservare queste tracce,
il nostro rivelatore, con 150 milioni di sensori,
funziona come un'enorme macchina fotografica 3D
scattando una foto per ogni collisione -
cioè fino a 14 milioni di volte al secondo.
Questo genera montagne di dati.
Ma se i big data sono in giro da così tanto tempo,
perché ne sentiamo parlare solo adesso?
Beh, come spiega la vecchia metafora,
l'intero è più della somma delle sue parti,
è non è più solo la scienza che se ne sta accorgendo.
Il fatto che possiamo acquisire più conoscenza
mettendo insieme e collegando informazioni
e trovando le loro correlazioni
può dare informazioni su molti aspetti della vita quotidiana,
sia in tempo reale,
come il traffico o le condizioni finanziarie,
sia sul breve periodo,
come in medicina e in meteorologia,
o consentendoci di fare previsioni,
come negli affari, nel crimine o nelle tendenze delle malattie.
Praticamente ogni settore sta producendo i suoi big data,
con sensori mobili sparsi in tutto il globo,
macchine fotografiche sul terreno e in aria,
archivi contenenti informazioni pubblicate sul web,
e siti che registrano le attività
dei cittadini di internet di tutto il mondo.
La sfida è inventare nuovi strumenti e tecniche
per scavare in questa miniera di dati,
per facilitare le decisioni,
per migliorare le diagnosi mediche,
e per rispondere ai bisogni e ai desideri
della società di domani in modi oggi inimmaginabili.