Big Data lijkt een term die niet weg te slaan is uit de lijstjes met trends voor 2018. Ondanks dat deze trend overal voorbijkomt, zien we nog niet direct waar big data gebruikt wordt. Om te bepalen waar big data gebruikt wordt en hoe je dit kunt gebruiken, moeten we eerst de definitie van big data duidelijk hebben. De definitie van big data verschilt per expert, en ook de toepasselijkheid van big data op een dataset kan verschillen op ieder moment. Een definitie van big data is data die te groot is om door één database management systeem opgeslagen/geanalyseerd te worden. Dit is een hele tastbare definitie, maar wat als we de server waar het database management systeem op gedraaid wordt vervangen wordt door een veel krachtigere server? Bij big data wordt vaak gedacht aan een aantal kolommen en een extreem aantal rijen. Wij denken echter dat big data niet in één definitie te vangen is.

De 5 V’s

Iedereen die weleens gelezen heeft of te maken heeft gehad met big data is deze term tegengekomen: de 5 V’s. De 5 V’s staan voor Volume, Velocity, Variety, Veracity en Value. Deze 5 V’s helpen beter de definitie van big data duidelijk te krijgen. Voor degenen die nog niet bekend zijn met deze termen hieronder een kleine uitleg van elke term. Ben je al wel bekend met deze termen? Dan kun je ze beter overslaan.

Volume

De meest duidelijke V is volume. Er moet voor big data een groot volume zijn, wil het kwalificeren als big data. We moeten hier niet denken aan Gigabytes (GB) of Terabytes (TB), maar aan Zettabytes (ZB) of zelfs Brontobytes (BB). Om je een idee te geven over hoeveel data we hier praten zal ik een voorbeeld geven. Op een harde schijf van 1 TB kun je ongeveer 200.000 foto’s of 320.000 liedjes (MP3) opslaan. Een Zettabyte is 1 miljard (1.000.000.000) keer groter dan een Terabyte. Dit betekend dat je 200.000.000.000 foto’s of 320.000.000.000 liedjes kunt opslaan in een Zettabyte. Dit zijn extreme voorbeelden, maar geven aan hoe snel data verzameld wordt. Dit betekent overigens niet dat je niet kunt profiteren van big data technieken, maar daar later meer over.

Velocity

Velocity of in het Nederlands snelheid heeft een tweeledige betekenis. Aan de ene kant gaat om de snelheid waarmee nieuwe data verzameld en gegeneerd wordt. Aan de andere kant gaat het om de snelheid waarmee gegevens geanalyseerd moeten worden om er waarde uit te halen. Stel dat je een model hebt wat de prijs van de AEX kan voorspellen met 90% zekerheid in de komende 10 seconden. Voor deze berekening worden het weer, de files, de waterstanden, vakanties, Facebook berichten, enz. meegenomen. Het algoritme doet er echter 2 minuten over om te berekenen wat de prijs op het moment van starten over 10 seconden zou zijn. De informatie wordt waardeloos door het verlies van de snelheid. Big data analyse technieken kunnen hier helpen.

Variety

Variety of variabiliteit is een term die ook voor de hand liggend is als men over big data spreekt. Het betekent dat verschillende data structuren gecombineerd worden. Data kan gestructureerd (tabellen of data representaties), ongestructureerd (tekst, video of afbeeldingen) of semigestructureerd (teksten die tabellen bevatten) zijn. Big data analyse technieken kunnen helpen om deze data snel en op grote schaal te analyseren.

Veracity

Dit is misschien wel de meest ambigue V van de 5 V’s. Veracity betekent in het kort niets meer dan hoe betrouwbaar is de data? Als meerdere bronnen gecombineerd worden (zoals in het voorbeeld over de AEX voorspelling hierboven), moet de betrouwbaarheid van iedere bron gegarandeerd worden. Big data technieken kunnen er voor zorgen dat de ‘vuiligheid’ uit de data wordt gefilterd en dat de data goed te gebruiken is.

Value

De meest belangrijke term van de 5 V’s is Value of waarde. Het is belangrijk om van te voren te bepalen of data überhaupt waarde kan hebben voor jouw bedrijf. Het kan natuurlijk zo zijn dat je gaandeweg ontdekt dat de grote hoop met data waarde heeft voor jouw bedrijf. Maar blijf hier wel logisch nadenken of een dataset of een aantal datasets ook logischerwijs gerelateerd kunnen zijn, of waardevolle informatie kunnen bevatten. Daarnaast is het natuurlijk ook van belang dat je big data technieken kunt toepassen om waarde uit de data te halen. Een hoop met data wordt pas waardevol als je er informatie uit kunt halen.

Waar te beginnen?

Nu je een beetje weet wat big data inhoudt, is het tijd om er mee aan de slag te gaan. Maar waar begin je als je er nog nooit mee gewerkt hebt? In het kort zijn de stappen naar informatie:

  1. Data verzamelen
  2. Data opschonen
  3. Data voorbereiden
  4. Data analyse
  5. Interpretatie

Data verzamelen

Deze stappen kunnen per bedrijf of per persoon verschillen, maar het grotere geheel zal hier altijd op terugvallen. Het begint met het verzamelen van data. Data verzamelen kan met verschillende tools. Je kunt bijvoorbeeld zelf data verzamelen d.m.v. analytics tools. Een goed voorbeeld hiervan is Google Analytics. Google analytics helpt met het verzamelen van data en automatiseert een groot gedeelte van de verzameling. Het opschonen van data is op deze manier vaak niet nodig, als deze stap goed wordt voorbereid. Een andere manier van data verzamelen is data mining. Data mining kan bijvoorbeeld het scrapen van het web zijn, of meerdere data sets verzamelen.

Data opschonen

Data die verzameld wordt en niet helemaal gereed is voor het coderen/standaardiseren of direct het analyseren moet eerst opgeschoond worden. Er zijn hier verschillende tools voor, één van de meest bekende en open source tools is OpenRefine. Deze tool helpt je om grote datasets op te schonen. Mocht dit niet voldoende zijn, dan is het vaak nodig om zelf te programmeren in python of in R om de data goed op te schonen. Het is dan mogelijk om de berekeningen over hele server clusters te verdelen, waardoor het opschonen veel sneller kan gaan, dan wanneer je één computer gebruikt. Voor kleinere datasets kun je een simpele teksteditor als notepad++ al gebruiken om de data op te schonen.

Data voorbereiden

Het voorbereiden van de data heeft te maken met het coderen en standaardiseren van de data. Alle data die met elkaar vergeleken wordt, moet in hetzelfde formaat zijn. Dit zorgt er voor dat je geen appels met peren vergelijkt. Zijn alle nummers ook daadwerkelijk nummers bijvoorbeeld? Voor een mens zit er weinig verschil tussen vijf en 5, maar voor een computer is dit hetzelfde verschil als een appel en een vrachtwagen. Eerst moet dus alle data die met elkaar vergeleken wordt in hetzelfde formaat staan, voordat je door kunt met de analyse fase.

Data analyseren

In de analyse fase worden verschillende technieken gebruikt. Soms is het voor de analyse fase niet eens nodig om echte big data technieken te gebruiken, maar zijn de big data technieken meer van toepassing op het opschonen en voorbereiden van de data. Het kan ook zo zijn dat analyse van heel veel verschillende kolommen en rijen big data technieken vereist. Net als met het opschonen en voorbereiden van data, kan programmeren gebruikt worden om de analyse te verspreiden over meerdere servers of zelfs een cluster van servers. Hier worden vooral Hadoop en Spark als technieken voor gebruikt.

Interpretatie

De interpretatie fase is de meest waardevolle fase van het proces. Hier ga je kritisch naar de analyse kijken en kun je informatie onttrekken uit de data die je zojuist geanalyseerd hebt. Hier krijg je nieuwe inzichten en kun je eventueel beleid op aan passen. Zo kun je hier bijvoorbeeld besluiten om opnieuw met nieuwe inzichten een big data analyse te gaan doen, of om vanaf nu bepaalde doelgroepen meer advertenties te tonen. Dit zijn maar een aantal voorbeelden van wat big data analyse tot gevolg kan hebben. Hoe waardevol het echt voor je bedrijf is, hangt vooral af van de interpretatie fase en jij bent vaak zelf het beste in deze interpretatie fase.

Hoe kun jij waarde halen uit big data?

Nu je een beetje weet wat big data is en hoe je het zelf kunt toepassen, is het van belang om te bepalen hoe je er ook echt iets mee kunt. Nu er big data technieken bestaan, zijn er mogelijkheden om data te analyseren waar je voorheen nooit aan gedacht hebt. Maak je bijvoorbeeld gebruik van sensors in je wagenpark? Dan kun je deze data bijvoorbeeld analyseren om te kijken of er preventief onderhoud nodig is, of hoeveel kilometer een bepaalde auto gereden heeft nadat hij voor een onderhoudsbeurt naar de garage moest. Je kunt hiervoor bijvoorbeeld de data van de sensors combineren met de data van alle onderhoudsbeurten voor je wagenpark en in de toekomst voorspellen waar onderhoud nodig is, of wanneer een auto nog wel mee kan, of juist vervangen moet worden.

Ook kun je data scrapen van websites om te bepalen of er doelgroepen zijn, waar je nog niet aan gedacht had. Ik kan je nu heel veel voorbeelden geven van wat je kunt doen met de data en welke doelgroepen je kunt vinden, maar het is vooral goed om zelf na te denken en te bedenken welke analyses je kunt doen, of welke websites je kunt scrapen. Daarnaast kun je big data ook gebruiken voor rapportering. Je kunt dashboards en visualisaties creëren om real-time goed inzicht te krijgen in je KPI’s. Mocht je zelf een big data vraagstuk hebben waar je niet uit komt of benieuwd zijn naar de mogelijkheden voor je bedrijf? Dan helpen wij je natuurlijk graag. Neem vrijblijvend contact op en we komen graag een keer langs.