I dati dovrebbero essere elaborati (crunched) centralmente o in edge?

Una volta all’anno il cloud computing arriva a Las Vegas. All’inizio di dicembre decine di migliaia di geek per la maggior parte maschi scendono nella capitale del gioco d’azzardo americana nella speranza non di vincite ma di saggezza su Amazon Web Services (AWS), il più grande fornitore di cloud computing al mondo. L’anno scorso hanno avuto la scelta di oltre 2.500 sessioni diverse in una settimana allo shindig, che si chiamava “Re: Invent”. Il punto più alto è stato il keynote con le ultime offerte di AWS di Andy Jassy, ​​l’infaticabile capo dell’azienda, che ha camminato sul palco per quasi tre ore.

Ma coloro che osano camminare per i lunghi isolati di Las Vegas fino ai luoghi della conferenza possono connettersi al cloud, e quindi ai mondi specchiocol mondo, in un altro modo. Premi un pulsante per richiedere il semaforo verde in una delle migliaia di incroci e questo attiverà il software di SWIM.AI, una startup, per eseguire una serie di calcoli che possono influenzare il flusso del traffico in tutta la città. Queste intersezioni non esistono solo nel regno fisico, ma vivono sotto forma di gemelli digitali in un data center. Ognuno riceve informazioni dal proprio ambiente – non solo pedoni che spingono i pulsanti, ma ogni auto che attraversa un anello nella strada e ogni cambio di luce – e prevedono continuamente cosa faranno i suoi semafori con due minuti di anticipo. Le aziende d’avanguardia come Uber, tra le altre, possono quindi inserire queste previsioni nei loro sistemi per ottimizzare i percorsi di guida. 

AWS rappresenta un modello centralizzato in cui tutti i dati vengono raccolti e analizzati in pochi punti, vale a dire i grandi data center. SWIM.AI è invece un esempio di ciò che viene chiamato “edge computing”: i dati vengono elaborati in tempo reale il più vicino possibile al luogo in cui vengono raccolti. È tra questi due poli che si allungherà l’infrastruttura dell’economia dei dati. Sarà, per citare una metafora usata per la prima volta da Brian Arthur del Santa Fe Institute, proprio come l’apparato radicale di un albero aspen. Per ogni albero fuori terra, ci sono miglia e miglia di radici interconnesse sotterranee, che si collegano anche alle radici di altri alberi. Allo stesso modo, per ogni data center delle dimensioni di un magazzino, ci sarà una rete infinita di cavi e connessioni, che raccoglierà dati da ogni angolo del mondo. 

Per capire come tutto ciò possa funzionare, va considerata l’origine e il viaggio tipico di un bit e come entrambi cambieranno negli anni a venire. Oggi il bit è spesso ancora creato da un click umano su un sito web o toccando uno smartphone. Domani sarà più spesso generato dalle macchine, chiamate collettivamente “Internet of Things” (IOT): gru, automobili, lavatrici, occhiali e così via. E questi dispositivi non solo fungeranno da sensori, ma agiranno sul mondo in cui sono integrati.

Image result for edge computing

Ericsson, produttore di dispositivi di rete, prevede che il numero di dispositivi IOT raggiungerà i 25 miliardi entro il 2025, rispetto agli 11 miliardi del 2019. Una stima del genere può sembrare arbitraria, ma questa esplosione è il probabile risultato di un grande cambiamento nel modo in cui i dati viene raccolto. Attualmente, molti dispositivi sono collegati via cavo. Sempre più spesso saranno connessi in modalità wireless. 5G, la prossima generazione di tecnologia mobile, è progettata per supportare connessioni da 1m per chilometro quadrato, il che significa che nella sola Manhattan potrebbero esserci connessioni da 60m. Ericsson stima che le reti mobili trasporteranno 160 exabyte di dati a livello globale ogni mese entro il 2025, quattro volte la quantità attuale. 

Anche la destinazione del bit medio sta cambiando. Storicamente, la maggior parte delle informazioni digitali sono rimaste a casa, sul dispositivo in cui sono state create. Ora, sempre più dati fluiscono nelle grandi fabbriche informatiche gestite da AWS, ma anche dai suoi principali concorrenti, Microsoft Azure, Alibaba Cloud e Google Cloud. Questi sono, nella maggior parte dei casi, gli unici posti finora con una potenza di calcolo sufficiente per addestrare algoritmi che possono, ad esempio, rilevare rapidamente le frodi con carta di credito o prevedere quando una macchina ha bisogno di un controllo, afferma Bill Vass, che gestisce l’archiviazione di AWS business: il più grande del mondo. Rifiuta di dire quanto sia grande, solo che è 14 volte più grande di quello del concorrente più vicino di AWS, che sarebbe Azure.

Quello che Vass preferisce anche non dire, è che AWS e altri grandi fornitori di cloud computing si stanno adoperando intensamente per approfondire questa centralizzazione. AWS offre ai clienti software gratuito o economico che semplifica la connessione e la gestione dei dispositivi IOT. Offre non meno di 14 modi per ottenere dati nel suo cloud, inclusi diversi servizi per farlo tramite Internet, ma anche metodi offline, come camion pieni di memoria digitale che possono contenere fino a 100 petabyte per trasportare i dati (uno dei che Jassy ha accolto sul palco durante il suo discorso di apertura del 2016).

La ragione di questo approccio non è un segreto. I dati attirano più dati, poiché diversi set vengono estratti in modo più proficuo insieme, un fenomeno noto come “gravità dei dati”. E una volta che i dati importanti di un’azienda sono nel cloud, sposteranno più applicazioni aziendali nei cieli informatici, generando sempre più entrate per i fornitori di cloud computing. I fornitori di servizi cloud offrono anche una gamma sempre più ricca di servizi che consentono ai clienti di estrarre i propri dati per approfondimenti.

Tuttavia tale centralizzazione comporta dei costi. Uno è il forte onere che le aziende devono pagare quando vogliono spostare i dati su altri cloud. Ancora più importante, concentrare i dati nei grandi centri potrebbe anche diventare più costoso per l’ambiente. L’invio di dati a una posizione centrale consuma energia. E una volta lì, la tentazione è grande per continuare a cruncharli. Secondo OpenAI, una startup-think-tank, la potenza di calcolo utilizzata nei progetti di IA all’avanguardia ha iniziato a esplodere nel 2012. In precedenza ha seguito da vicino la legge di Moore, secondo la quale la potenza di elaborazione dei chip raddoppia all’incirca ogni due anni ; da allora, la domanda è raddoppiata ogni 3,4 mesi.

Fortunatamente, è già iniziato un contro-movimento, verso l’edge, il “bordo”, dell’informatica, dove vengono generati i dati. Non sono solo i server nei grandi data center a diventare più potenti, ma anche i centri locali più piccoli e i dispositivi connessi stessi, consentendo così di analizzare i dati più vicini alla fonte. Inoltre, ora esiste un software per spostare la potenza di elaborazione verso il punto in cui funziona meglio, che può trovarsi su o vicino a dispositivi IOT.

Applicazioni come le auto a guida autonoma richiedono connessioni a reazione molto rapida e non possono permettersi il rischio di essere disconnesse, pertanto è necessario che l’informatica avvenga nei data center vicini o persino nell’auto stessa. E in alcuni casi i flussi di dati sono semplicemente troppo grandi per essere inviati al cloud, come con i semafori a Las Vegas, che generano insieme 60 terabyte al giorno (un decimo della quantità che Facebook raccoglie in un giorno). 

Un giorno presto, i dibattiti potrebbero imperversare sull’opportunità di tassare la generazione di dati

Fino a che punto il pendolo tornerà indietro? La risposta dipende da chi chiedi. Il vantaggio è importante, ammette Matt Wood, VP Artificial Intelligence di AWS, ma “a un certo punto è necessario aggregare i dati in modo da poter formare i modelli“. Sam George, che guida il business IOT di Azure, si aspetta che il computing si distribuisca equamente tra il cloud e il suo limite. E Simon Crosby, il capo tecnologo di SWIM.AI, pur ammettendo che l’approccio della sua azienda “non si applica dappertutto“, sostiene che vengono generati troppi dati ai margini per inviarli al cloud e che non ci saranno mai abbastanza scienziati di dati per aiutare a formare tutti i modelli centralmente.

Anche così, questo contro-movimento potrebbe non andare abbastanza lontano. Dati gli incentivi, i grandi fornitori di cloud saranno ancora tentati di raccogliere troppi dati e sgretolarli. Un giorno presto, i dibattiti potrebbero infuriare se la generazione di dati debba essere tassata, se il mondo non vuole affogare nel mare digitale.

Fonte: The Economist