02.01.2015
Online

‘Big Data’ bestaat niet. We are not that smart, yet

By: Jeroen de Hooge

BlogOnline

Vanaf het begin van de jaartelling tot 2000 is er 5 miljard GB aan data gecreëerd. Tien jaar later duurde de creatie van dezelfde hoeveelheid slechts 2 dagen. Inmiddels gebeurt dat elke 10 seconden. Binnenkort kunnen we verwachten dat dergelijke datacreatie elke seconde plaatsvindt. We lijken dus graag data te genereren, en zijn aan de andere kant hongerig om die te verzamelen, gebruiken en interpreteren.

Colossal Data

Heel veel data dus: kolossaal zelfs. Maar daarmee is het nog geen Big Data. Het is wel een basis om over Big Data na te denken, maar het is vooral een basis om business intelligence toe te passen, weliswaar op grotere schaal. Maar betekent meer data ook meer informatie, kennis en waardecreatie?

De afgelopen periode is er veel gezegd en geschreven over ‘slimmer’ gebruik van data van bankklanten verzameld door hun eigen bank, in het recente geval ING Bank. Ook daar wordt gesproken over Big Data, maar ook dat is niet terecht. Ook bij ING Bank ging het over niet meer dan business intelligence.

Buzzword versus feiten

Big Data is op dit moment duidelijk een buzzword en obsessie voor ondernemingen, overheden en media. Echter, echte Big Data bestaat nog niet. Alleen een enorme hoeveelheid data is daarvoor niet genoeg. De term Big Data wordt in de markt verkeerd gebruikt. Professor Mayer-Schönberger van het Oxford’s Internet Institute gebruikt graag de theoretische definitie ‘N=All’, waarbij er statistisch geen voorbeeld (N) meer nodig is want het uitgangspunt is iedereen (All).

Een paar voorbeelden:

De Godfather van Big Data, Google gebruikte Google Search zoektermen gerelateerd aan griep om zo te kunnen laten zien en voorspellen waar een griepepidemie is en hoe die zich ontwikkelt: de ‘Google Flu Trends’. Voor Big Data fans was dit hèt voorbeeld, want de trends waren tenslotte veel sneller en goedkoper dan de traditionele, reactieve cijfers over griepepidemieën. Echter, toen de officiële cijfers bekend werden bleek dat de cijfers van Google daarvan factor 2 afweken, en dus onbruikbaar en nutteloos. De voorspellende kracht bleek zelfs veel slechter dan de al bestaande, conventionele monitor systemen. Inmiddels is men gestopt met Google Flu Trends. Hetzelfde geldt voor de Google Denguetrends (knokkelkoorts).

Google heeft geprobeerd een van haar supercomputers in te zetten om 10 miljoen thumbnails van YouTube video’s te scannen om die te laten leren een kat in een video te identificeren. De accuratesse bleek 70%. Dat lijkt indrukwekkend totdat je je bedenkt dat een gemiddeld 2-jarig kind dat in 100% van de gevallen foutloos doet.

The Wereldgezondheidsorganisatie (WHO) heeft zeer geavanceerde digitale ‘big data analyse’ algoritmes waarmee zij probeert epidemieën te voorspellen en bij te houden. Daarbij mede gebruikmakend van internet en de data die daarin wordt gegeneerd, door analyse van zoekopdrachten of sociale media, is het niet gelukt om bijvoorbeeld de 2014 Ebola epidemie te voorspellen. Het blijkt eenvoudigweg te onbetrouwbaar, te weinig specifiek, en de data is pas beschikbaar in hindsight. Diverse gezondheidsorganisatie zijn dan ook gestopt met dergelijke voorspellende methodieken en technologie.

Big Data werkt zelfs bij de NSA (nog) niet; meer dan 90% van de sinds 9/11 (2001) verzamelde data is niet gebruikt, aldus Richard Clarke, voorzitter van President Obama’s Review Group on Intelligence and Communications Technology die de praktijken van NSA eind 2013 heeft gereviewed naar aanleiding van de Snowden onthullingen en waarvan de 64 aanbevelingen inmiddels grotendeels zijn overgenomen door President Obama, zoals in 2014 gemeld tijdens de NSS in Den Haag.

Kwantiteit + Causaliteit = Kwaliteit

De belangrijkste reden waarom Big Data (nog) niet werkt, is dat de beschikbare data (‘Found Data’) wordt verwerkt met traditionele statistiekmethoden op basis van correlatie: een bepaalde hoeveelheid zoektermen gekoppeld aan een geolocatie.

Wat er mist is causaliteit en connectie. De huidige ‘Big Data’ is vooral nog domme data. Welk verband is er tussen de reden of oorzaak waarom iemand de zoekterm invoerde, en die gebruiker zelf? Als je niet weet wat er achter de correlatie zit, heb je geen idee waar je naar kijkt en wat de oorzaak is van die correlatie.

Een reden bij data over griep (Google Flu Trends) kan zijn geweest dat er in die tijd diverse voorpagina artikelen waren over dodelijke griepvirussen. Hetzelfde geldt voor data over Ebola (WHO). Statistiek houdt geen rekening met het daadwerkelijke causaal verband. Het goed doorgronden van de achtergronden is al lastig gebleken sinds mensenheugenis. Er serieuze trends daadwerkelijk mee voorspellen is een brug te ver. De huidige verwachtingen zijn dat dit op korte termijn ook niet mogelijk is.

Een ander punt is dat de data van ‘All’ niet daadwerkelijk iedereen betreft. Trending topics op Twitter en andere sociale media zijn weliswaar veel besproken onderwerpen, maar de hoeveelheid actieve gebruikers is relatief klein om van ‘iedereen’ te spreken. Het is verder slechts een beperkt en niet bepaald representatief deel van de demografie, zowel lokaal als internationaal. Daarmee kan de uitkomst er van, net als in een peiling, stevig afwijken, en zelfs niet in de buurt komen van de werkelijkheid.

Kwantiteit zorgt dus ook bij Big Data niet voor kwaliteit. We zullen het voorlopig moeten doen met de al decennia bestaande mogelijkheden van business intelligence en Found Data, en de term Big Data nog even op de plank laten liggen. En daar is niets mis mee.

Share this post