Big Data - Tim Smith

Il concetto di big data è elusivo. Rappresenta una quantità di informazioni digitali scomode da archiviare, trasportare o analizzare. I big data sono cosí voluminosi da mettere in crisi le tecnologie attuali e sfidarci a inventare la prossima generazione di strumenti e tecniche di archiviazione dati. Comunque i big data non sono una novitá. Di fatto, i fisici del CERN sono alle prese da decenni con la sfida della continua espansione dei big data. Cinquanta anni fa i dati del CERN potevano essere archiviati in un solo computer. Certamente non un computer come il vostro, era un computer mainframe che occupava un intero edificio. Per analizzare i dati, i fisici di tutto il mondo si spostavano al CERN per connettersi all'enorme macchina. Negli anni '70 i big data, sempre di piú, erano distribuiti su diversi computer, nati come funghi al CERN. Ogni gruppo di computer era collegato attraverso reti dedicate. Ma i fisici collaboravano senza tener conto dei confini tra i gruppi, quindi avevano bisogno di accedere a tutti i gruppi di computer. Cosí mettemmo insieme tutte le reti nel nostro CERNET. Negli anni '80 isole di reti simili che parlavano dialetti differenti, si diffusero in tutta Europa e negli Stati Uniti, rendendo possibile l'accesso remoto, ma per vie tortuose. Per rendere piú facile l'accesso dei fisici di tutto il mondo ai big data in continua espansione archiviati al CERN senza bisogno di spostarsi, le reti avevano bisogno di parlarsi utilizzando lo stesso linguaggio. Adottammo il neonato standard internet degli Stati Uniti seguito dal resto dell'Europa, e stabilimmo al CERN il principale collegamento tra l'Europa e gli Stati Uniti nel 1989, e internet diventó veramente globale! I fisici allora poterono facilmente accedere ai terabyte dei big data attraverso un accesso remoto da tutto il mondo, generare risultati e scrivere articoli senza muoversi dai loro istituti. A quel punto volevano condividre i loro risultati con tutti i loro colleghi. Per facilitare questa condivisione delle informazioni, creammo all'inizio degli anni '90 il web. I fisici non avevano piú bisogno di sapere dove erano archiviate le informazioni per poterle trovare e potervi accedere via web, un'idea che si è diffusa in tutto il mondo e ha trasformato il nostro modo di comunicare nella quotidianità. Nei primi anni 2000, la continua crescita dei nostri big data superó la nostra capacitá di analizzarli al CERN nonostante avessimo edifici pieni di computer. Dovemmo cominciare a distribuire i petabyte di dati ai nostri partner per sfruttare le capacità di archiviazione e calcolo di centinai di diversi istituti. Per orchestrare queste risorse interconnesse con le loro differenti tecnologie, sviluppammo una rete computazionale, che consentiva lo scambio delle risorse computazionali di tutto il mondo. Questo scambio si basava sulla fiducia e la reciprocità. Ma questa rete non poté essere trasferita così facilmente al di fuori della nostra comunità, dove non tutti avevano risorse da condividere né ci si poteva aspettare che le aziende avessero lo stesso livello di fiducia. Invece un approccio alternativo, basato sul business per accedere a risorse on-demand si è sviluppato recentemente, chiamato cloud computing, che altre comunità stanno sviluppando per analizzare i loro big data. Può sembrare paradossale per un posto come il CERN, un laboratorio focalizzato sullo studio dei blocchi più piccoli della materia, essere la fonte di qualcosa di enorme come i big data. Ma il modo in cui studiamo le particelle elementari, e le forze attraverso le quali interagiscono, richiede la fugace creazione di particelle mediante la collisione di protoni nei nostri acceleratori e la cattura delle loro tracce mentre si muovono a velocità vicine a quelle della luce. Per osservare queste tracce, il nostro rivelatore, con 150 milioni di sensori, funziona come un'enorme macchina fotografica 3D scattando una foto per ogni collisione - cioè fino a 14 milioni di volte al secondo. Questo genera montagne di dati. Ma se i big data sono in giro da così tanto tempo, perché ne sentiamo parlare solo adesso? Beh, come spiega la vecchia metafora, l'intero è più della somma delle sue parti, è non è più solo la scienza che se ne sta accorgendo. Il fatto che possiamo acquisire più conoscenza mettendo insieme e collegando informazioni e trovando le loro correlazioni può dare informazioni su molti aspetti della vita quotidiana, sia in tempo reale, come il traffico o le condizioni finanziarie, sia sul breve periodo, come in medicina e in meteorologia, o consentendoci di fare previsioni, come negli affari, nel crimine o nelle tendenze delle malattie. Praticamente ogni settore sta producendo i suoi big data, con sensori mobili sparsi in tutto il globo, macchine fotografiche sul terreno e in aria, archivi contenenti informazioni pubblicate sul web, e siti che registrano le attività dei cittadini di internet di tutto il mondo. La sfida è inventare nuovi strumenti e tecniche per scavare in questa miniera di dati, per facilitare le decisioni, per migliorare le diagnosi mediche, e per rispondere ai bisogni e ai desideri della società di domani in modi oggi inimmaginabili.