
16- L’espressione “big data” designa delle cose che si possono fare solo su larga scala, per estrapolare nuove indicazioni o per creare nuove forme di valore, con modalità che vengono a modificare i mercati, le organizzazioni, le relazioni tra cittadini e governi e altro ancora. [257-I fatti sono fondamentali per la nostra società ed esistenza vs il capire le cause]/ 73 [Trovare correlazioni vs capire ragioni]/85 Le correlazioni dicono cosa e non perché,ma sapere cosa spesso è più che sufficiente.
19 [datizzazione ≠ digitalizzazione -> nel 2007 solo il 7% dei dati era in forma analogica.]
22- Quando si ha a che fare con le informazioni la dimensione conta. (..) Google è in grado di prevedere la diffusione dell’influenza quasi con la stesa precisione dei dati ufficiali che si basano su visite mediche. Lo può fare combinando centinaia di migliaia di ricerche –e può produrre una risposta praticamente in tempo reale , molto più rapidamente delle fonti ufficiali .
23- I BIG DATA HANNO A CHE VEDERE CON LE PREVISIONI /24- [Ci sono attualmente 3 mutamenti nel modo in cui analizziamo le informazioni:
- big data digitali vs campioni statistici
- big data (=macrocomprensione dei fenomeni) vs esattezza microscopica dei dati
- trend e correlazioni vs causalità (CHE COSA SUCCEDE = AVVERTIMENTO VS CAUSALITA’ = SPIEGAZIONE)]
27- NOI ANALIZZIAMO I DATI DA MIGLIAIA D’ANNI. LA SCRITTURA NACQUE DALL’ANTICA MESOPOTAMIA PERCHE’ I BUROCRATI VOLEVANO UNO STRUMENTO EFFICIENTE CON CUI REGISTRARE E RECUPERARE INFORMARZIONI.
24– [I big data hanno una struttura granulare: ci sono sottocategorie e sottosegmenti che i campioni non sono in grado di valutare]
28- [I big data producono nuovi modelli di business: il valore passa da fabbriche e terreni a brand e proprietà intellettuale]/ [La competenza specifica conta meno in un mondo che mette in primo piano probabilità e correlazioni-> analitiche sofisticate vs percezioni istintive]/48- [Con i big data le scienze sociali perdono il monopolio dell’interpretazione]/29 [le nostre CONVINZIONI TRADIZIONALI sono basate su informazioni esatte, molto limitate e di natura causale vs big data]/ Il lato oscuro dei big data-> decisioni prese da macchine]/30 [Alla stampa è legata la libertà di parole ≠ ai big data è legato il venir meno della sacralità dell’individuo-> DIO E’ MORTO = LE NOSTRE CERTEZZE STANNO VENENDO MENO]
34- La difficoltà di processare accuratamente grandi quantità di dati è insita nella natura umana. Abbiamo sempre lavorato con dati limitati perché gli strumenti che avevamo per raccoglierli, organizzarli, immagazzinarli e analizzarli erano inadeguati. Riducevamo le informazioni su cui fare affidamento al minimo assoluto per poterle esaminare più facilmente. Era una forma di autocensura incoscia: consideravamo la difficoltà di interagire con i dati come una realtà negativa invece di vederla per quello che era, un vincolo artificiale imposto dalla tecnologia dell’epoca.
35 [censimento (= tenere sotto controllo l’entità e la composizione della cittadinanza) vs statistica]/39 – Gli statistici hanno dimostrato che la precisione del campionamento migliora enormemente con la casualità e non con l’incremento del campione./Il nuovo metodo ha trasformato una grossa parte di quelle che un tempo definivamo discipline umanistiche nelle scienze sociali [che utilizzano test]/ 41- Il campionamento è utile ma resta sempre una scorciatoia./ 42 [problemi di calcolo (processa mento, elaborazione) e di tabulazione (raccolta dati, archiviazione)]/43- Il campionamento ha da sempre un problema: trascura i dettagli (= identificazione delle anomalie?)/47- [Il campionamento statistico (vs raccolta di un DATA SET intero o quasi intero) fa perdere informazioni (≈ riduzione delle immagini digitali]
48- [Raccolta passiva dei dati (di DATA POINT) mentre le persone continuano a svolgere le loro attività vs campionamento attivo]/52- [65- CONTRO IL FALSO IDEALE DELL’ESATTEZZA (XIX sec vs oggi) -> unità standard di misurazione vs accettare l’imprecisione (=confusione)/ 60 [La confusione è difficile da accettare per gli analisti abituati al campionamento tradizionale]
57 [SULLA TRADUZIONE AUTOMATICA -> efficacia degli algoritmi e della raccolta dati nel processa mento del linguaggio umano]
64- [Sulla classificazione dei contenuti (per es tag di foto su Flicker) : tassonomie ( che cercano di incasellare tutto in righe e colonne) vs folksonomie (=confusione organizzativa)/ 67- [I dati tradizionalmente non sono solo archiviati e basta ma suddivisi in una serie di record che contengono una serie di campi]/ 68 [vecchi database relazionali vs dati caotici di varia provenienza e accuratezza:]LA PROCESSAZIONE DEI BIG DATA COMPORTA NECESSARIAMENTE PERDITE DI INFORMAZIONI, E’ LOSSLY.
74- [Amazon è un sistema di filtraggio collaborativo: oggi un terzo delle vendite natalizie di Amazon verrebbe dai suoi sistemi di raccomandazione e personalizzazione]/76- [sapere perché potrebbe aiutare ma non serve a stimolare le vendite: si bada a far emergere correlazioni preziose senza sapere nulla delle cause sottostanti.
76 [COS’E’ UNA CORRELAZIONE?] Una correlazione quantifica la relazione statistica tra i valori di due dati. Una correlazione elevata si registra quando al variare di uno dei valori, tende a variare anche l’altro.[CFR.: Google Flu trends]
80-Come scegliere l’indicatore giusto[in una ricerca su un fenomeno sociale]? A questo scopo gli esperti [tradizionali] impiegavano ipotesi sorrette da teorie – idee astratte sul funzionamento di un determinato fenomeno [= approccio basato su ipotesi ( 88- l’ipotesi di partenza può essere pregiudiziale e fuorviante)vs approccio basato sui dati (84- Identificare gli indicatori rappresentativi nei contesti sociali è uno dei modi di sfruttamento dei big data = metodo dell’analitica previsionale che non spiega necessariamente la causa di un problema, ma avverte che c’è un problema-> sensori sui ponti per prevenire cedimenti strutturali ->NON SPIEGA LA CAUSA DI UN PROBLEMA MA AVVERTE CHE C’E’ UN PROBLEMA./88- [Mondo degli small data = ipotesi messa alla prova vs metodo del flusso di dati?]
88. Prima dei big data, anche per la capacità di elaborazione inadeguata, la maggior parte delle analisi di correlazione che impiegavano grossi data set si limitava a cercare relazioni lineari. Naturalmente molte relazioni sono assai più complesse. Con analisi più complesse possiamo identificare relazioni non lineari tra i dati. Ecco un esempio. Per molti anni economisti e politologi hanno creduto che felicità e reddito fossero in correlazione diretta: bastava aumentare il reddito e il cittadino medio sarebbe stato più felice. Un’occhiata ai dati visualizzati in un grafico rivela tuttavia che c’è in gioco una dinamica più complessa. Sotto una certa soglia ogni incremento del reddito si traduce in un significativo aumento della felicità; ma al di sopra di quella soglia non si registrano effetti positivi sul benessere psicologico. Se dovessimo rappresentare questo andamento in un grafico avremmo una curva anziché una retta, come invece vorrebbe l’analisi lineare./ Le tecniche di analisi correlazionale (…)sono in grado di individuare relazioni non lineari tra i dati, analizzandole da tante angolazioni diverse – un po’ come i pittori cubisti che tentavano di catturare l’immagine del volto di una donna da più punti di vista. [Uno dei metodi più suggestivi oggi giorno è L’ANALISI DEI NETWORK. Permette di mappare, misurare e calcolare i nodi e i collegamenti di tutto quanto, dagli amici che si incontrano su Facebook, ai precedenti citati nelle varie sentenze, a chi chiama chi nei cellulari. Nel loro insieme questi strumenti aiutano a rispondere a domande empiriche non causali.
90 [Dibattito filosofico sull’esistenza della causalità]/ 91 – [PENSIERO VELOCE (=SCORCIATOIA COGNITIVA) VS PENSIERO LENTO (=la nostra mente è abituata a un mondo povero di informazioni]/92 [La convinzione che la causalità si possa dimostrare facilmente è errata]/94- Le analisi non causali (che cosa accade) come le correlazioni sono rapide ed economiche VS lentezza dell’approccio sperimentale (=perché accade)/LA CORRELAZIONE E’ FUNZIONALE AD ESPERIMENTI CAUSALI CONTROLLATI./ 96- [Nel mondo dei big data] la causalità non sarà abbandonata ma non sarà la fonte primaria dei significati./ I dati si presentavano in tutte le forme possibili e non erano mai stati organizzati per consentirne l’analisi. /98- [Logica delle classificazioni (esattezza vs correlazioni)/CONFUSIONE VS ESATTEZZA: le previsioni possono avere una base causale o correlativa->IN FUTURO LA NOSTRA COMPRENSIONE SARA’ GUIDATA Più DALL’ABBONDANZA DI DATI CHE DA IPOTESI-TEORIE (= MODELLI CONCETTUALI BASATI SU RELAZIONI CAUSALI)]
100- In presenza di un numero sufficiente di dati i numeri bastano e avanzano [sic!]/ [ormai] le regole generalizzabili in fisica teorica sono irrilevanti e la teoria non ha più nulla a vedere con la realtà: solo calcoli perché gli esperimenti sono troppo costosi o difficili./101 [TEORIE STATISTICHE E MATEMATICHE VS TEORIE DINAMICHE CAUSALI]
107- [Il caso del Cap. Maury che elaborò nell’800 mappe per abbreviare le rotte in modo da far risparmiare i mercanti->è un pioniere della DATIFICAZIONE (≠digitalizzazione)= estrazione e incolonnamento di dati da materiali apparentemente senza valore e generati per altri scopi / 180 [Automobili = successori delle navi come “Osservatori galleggianti” (Maury)]/109- Questo processo consentì di usare le informazioni in modo innovativo e di creare un valore specifico. [dati< lat. DATA = FATTI]/DATIZZARE UN FENOMENO SIGNIFICA CONVERTIRLO IN FORMA QUANTITATIVA IN MODO DA POTERLO TABULARE E ANALIZZARE CON LA MATEMATICA]/110 [SCRIVERE = registrare-misurare-recuperare informazioni]/ 110-LA CAPACITA’ DI REGISTRARE LE INFORMAZIONI E’ UNA DELLE LINEE DI DEMARCAZIONE TRA SOCIETA’ PRIMITIVE E SOCIETA’ AVANZATE (…) SCRIVERE PERMETTE DI REPLICARE L’ATTIVITA’ UMANA. Gli edifici per esempio si possono riprodurre prendendone a riferimento le dimensioni e i materiali./111- La quantificazione consentiva la previsione e quindi la pianificazione, che si riduceva spesso a comparare il raccolto atteso con quello effettivo degli anni precedenti. Consentiva a coloro che davano vita a una transazione commerciale di formalizzare le rispettive obbligazioni. Senza la misurazione e la registrazione non poteva esistere il denaro, perché non sarebbero esistiti i dati su cui si regge./112 [Il XII sec. e la diffusione dei numeri arabi in Europa]/113- [Analizzare i dati -> Nel XIV sec. PARTITA DOPPIA che permette di registrare le informazioni in base a categorie (crediti/debiti)./117- LA DATIZZAZIONE HA RESO I LIBRI INDICIZZABILI E QUINDI RINTRACCIABILI. [datizzazione e scoperta del plagio)
118- [Culturomica.> Google come azienda paradigmatica nello sfruttamento dei big data-> Nuovi utilizzi del testo convertito in dati-> Amazon (digitalizzazione) vs Google (datizzazione)/121- [Datizzazione del posizionamento geografico (il GPS nel 1978)]/125-[ geolocalizzazione per stimare quante persone hanno preso parte a una manifestazione o per prevedere l’infezione da influenza o la rete delle amicizie di ciascuno-> REALITY MINING-> Nuovi utilizzi = nuovo valore ]
127. LE NUOVE FRONTIERE DELLA DATIZZAZIONE SONO DI CARATTERE PIU’ PERSONALE: ATTENGONO ALLE NOSTRE ESPERIENZE, ALLE NOSTRE RELAZIONI, AI NOSTRI STATI D’ANIMO-> I SOCIAL [NETWORKS] =[Piattaforme che prendono degli elementi intangibili della vita quotidiana e li trasformano in dati che si possono usare per fare nuove cose -> (Facebook e il grafico sociale = rete delle amicizie di ciascuno) (Twitter ha reso possibile fissare e condividere i pensieri immediati che prima andavano perduti nelle spire del tempo) (Linkedin su esperienze professionali) -> una montagna di informazioni datizzate/ SIAMO DI FRONTE A UN GRANDE PROGETTO INFRASTRUTTURALE [= il progetto della datizzazione] CHE SOTTO CERTI ASPETTI RIVALEGGIA CON QUELLI DEL PASSATO, DAGLI ACQUEDOTTI ROMANI AL PROGETTO DELL’ENCYCLOPEDIE DEGLI ILLUMINISTI
139-[I dati come nuova risorsa o come nuovo fattore di produzione-> (≠ cibo) il valore dei dati non diminuisce quando vengono utilizzati, ma si possono processare all’infinito ( DATI = BENE NON COMPETITIVO= il fatto che una persona li usi, non impedisce a un’altra di usarli – come dicono gli economisti)/ 142 [sull’utilizzo dei dati e sul loro valore = energia immagazzinata o potenziale = molla compressa]/145 [sedersi su un geyser informativo ( 146- per es-: vendere dati su dove la gente si incontra il venerdì sera)-> Amazon e il motore delle raccomandazioni: 151- Amazon e altri hanno costruito modelli sofisticati per separare i dati utili da quelli irrilevanti]
143- [Ci sono tre modi efficaci di liberare il valore opzionale dei dati:
- riutilizzare i dati
- fondere dei data set
- identificazione delle possibilità di estensione.
156- [la lettura da passatempo solitario a esperienza comunitaria (DATI RESIDUI -> E DIDATTICA)]-> Le performance di Amazon, Google e Facebook dipendono in gran parte dai dati residui che raccolgono dalle interazioni con i clienti e che re-immettono nel servizio]/ 158 Governi e imprese rivaleggiano per il volume dei dati a disposizione.
162- OGNI UTILIZZATORE DI FACEBOOK VALE 100 DOLLARI /ORA
163- Enorme divario tra il valore di Facebook in base agli standard contabili tradizionali e la valutazione effettiva espressa dal mercato (in base alla valutazione dei dati raccolti-> IL VALORE DEI DATI E’ IN GRAN PARTE LATENTE/ 166- Il valore dei dati sta nel loro potenziale utilizzo , praticamente illimitato [raccolta vs uso dei dati]/168 [imprese che raccolgono dati vs imprese che usano dati ]-> una nuova figura professionale il DATA SCIENTIST-> LA CATENA DEL VALORE DEI BIG DATA: 1. IL DETENTORE DEI DATI 2. IL DATA SCIENTIST 3. ANALISTA DI BIG DATA
182- Oggi, nelle prime fasi dell’epoca dei big data , le idee e le competenze sembrano avere il massimo valore . Alla fine tuttavia il grosso del valore risiederà nei dati stessi, come miniera d’oro./182 [IDEE (=cultura)/ competenze (=saper fare) / oro (=miniera di dati]/184 SEMPRE MAGGIORE DATIZZAZIONE DEL MONDO (dati e pubblicità su Internet come intermediari dei dati)/ 186- [Il valore si va spostando dall’expertise all’idea e ora si va spostando verso i dati (= IL PASSAGGIO DEL VALORE NELLE MANI DI COLORO CHE CONTROLLANO I DATI)/[190 “Sabermetrica” dal nome del giornalista de L’arte di vincere]/ [Il MAGGIORE IMPATTO DEI BIG DATA SARA’ NEL RAFFORZAMENTO DEL GIUDIZIO UMANO (Analista dei dati (statistici)(= verità pratiche rivelate dal semplice aggregazione di dati) vs specialista(= super esperto)]
192- [SPECIALISTA: ANALISTA = CAUSALITA’ : CORRELAZIONE = SMALL DATA : BIG DATA]
193 [MATEMATICA /STATISTICA = LEGGERE/SCRIVERE-> AMPIEZZA VS PROFONDITA’ DELLE CONOSCENZE (=SPECIALISMO)-> I VIDEOGAMES FATTURANO OGGI PIU’ DEI FILM DI HOLLYWOOD]
204- [COME I SOCIAL ORGANIZZANO LA SORVEGLIANZA SU DI NOI ≈ STASI DELLA DDR]/ Pericoli dei big data:
- Privacy-> i big data favoriscono la de-anomizzazione dei dati.
- personalizzazione delle punizioni (= punire le persone prima che agiscano]
- feticismo dei dati (= dittatura dei dati = farsi ingannare dal significato dei dati)
205- LA PUBBLICITA’ MIRATA SU INTERNET RISPETTO A QUESTI PERICOLI E’ UNA PASSEGGIATA
207 –[Modificazione della natura dei rischi nell’epoca dei big data-> non bastano le vecchie leggi (per es.: “consenso informato”.>il pericolo sta negli usi secondari dei dati che rendono inefficaci le vecchie strategie per garantire la privacy][transazione = contatto ≠ scambio manuale]
216-[ Il PROFILING = UTILIZZO DELLE PREVISIONI PER GIUDICARE LE PERSONE, PREVISIONI CHE INOLTRE NON SI POSSONO CONFUTARE-> big data vs libertà e responsabilità/ 217 – Con i big data possiamo sottrarci alla camicia di forza dell’identità di gruppo e sostituirle con previsioni molto più analitiche per ciascun individuo. Un principio fondamentale della nostra società afferma che la responsabilità individuale è legata indissolubilmente alla libertà d’azione individuale. Se mi costringono ad aprire la cassaforte dell’azienda con la pistola puntata alla tempia non ho scelta e quindi non posso essere accusato di complicità.
222 Mc Namara come tipico manager del XX secolo, che si affida più ai numeri che ai sentimenti.
233- I dati possono essere di cattiva qualità, analizzati impropriamente o usati in maniera fuorviante. Peggio ancora possono misurare l’indicatore sbagliato (per es.: i test a scuola)
225- Errori della grandi aziende tecnologiche del passato che anteponevano i curriculum alle capacità effettive delle persone (Cfr. potenziale e performance di un candidato all’assunzione)
231 [Per fronteggiare il mondo dei big data, dobbiamo pensare]a un altro diluvio di dati come quello scatenanto sei secoli fa dalla stampa (= cambiamento nelle regole (per es.: censura) che usiamo per autogovernarci e nei valori che la società deve proteggere-> Lutero traduce la Bibbia e i suoi conterranei ebbero una buona ragione per eliminare la mediazione del clero e leggere la parola di Dio direttamente]/(autorizzazione preventiva vs libertà di stampa e di parola / giornali popolari vs tutela della privacy e azioni per tutelare in giudizio la propria onorabilità]
234 [future leggi su privacy-> privacy differenziale= tutelare il valore previsionale dei dati anche al di là del loro utilizzo primario= misure che escludano i danni agli individui]/ [sulla responsabilità degli utilizzatori/consumatori/regolatori di dati]
238= giustizia nell’epoca dei big data = salvaguardia per il libero agire umano ( ≈ rispetto delle procedure)/ [Su assunzione/licenziamento/ concessione mutuo-> TRASPARENZA/CERTIFICAZIONE/CONFUTABILITA’ DEI DATI]
239 [E’ cruciale che proteggiamo la responsabilità individuale. La società proverà la grande tentazione di deresponsabilizzare gli individui per mettersi a gestire i rischi, ossia a basare le decisioni che riguardano le persone sulle valutazioni delle possibilità e delle probabilità di determinati risultati. Avendo a disposizione tutti quei dati apparentemente obiettivi, si potrebbe decidere di de-emozionalizzare e di de-individualizzare il processo decisionale, per affidarsi a degli algoritmi anziché al giudizio soggettivo di giudici e valutatori e formulare decisioni non in termini di responsabilità personale ma in termini di rischi più “obiettivi” e di misure finalizzate ad evitarle.[242. ALGORITMISTA come nuovo specialista]
242 [Rischi dei big data = non spiegabilità delle decisioni e presenza di DATA BARONS -> PRO NUOVA NORMATIVA ANTITRUST
248- [Abbiamo suggerito tre strategie per la governance dei big data:
- spostare il regime di tutela della privacy dal consenso individuale alla responsabilità di chi utilizza di chi utilizza i dati;
- rispettare il libero agire degli esseri umani, nel quadro generale delle previsioni;
- inventare una nuova casta di valutatori dei big data, che abbiamo definito algoritmisti.
249- Non dobbiamo permettere che i big data si sviluppino al di là della nostra capacità di influenzare la tecnologia
257- I BIG DATA CI OBBLIGANO A RIESAMINARE LA NATURA DEL PROCESSO DECISIONALE, DEL DESTINO E DELLA GIUSTIZIA.