Climber Worldwide
Missende data: vertel het hele verhaal met Qlik

Ontbrekende data: vertel het hele verhaal met Qlik

Waarom keren sommige vliegtuigen niet terug van het slagveld? Zijn de succesverhalen van bijvoorbeeld Bill Gates, Jeff Bezos en Mark Zuckerberg wel een goede leerschool? En waarom dacht men in 1987 dat katten meer kans op overleving hadden als ze van een hogere verdieping vielen? Al deze vragen hebben één gemeenschappelijke factor: ze hebben last van “survivorship bias”.

SURVIVORSHIP BIAS

Als je veel met data werkt komt deze term je mogelijk bekend voor. Survivorship bias is het verschijnsel waarbij resultaten (of overlevers) van een bepaald proces disproportioneel behandeld worden. Incomplete datasets, gebrek aan context of het foutief interpreteren van data staat vaak aan de basis van deze misvatting. Als je begrijpt waarom survivorship bias voorkomt en je het effect kan herkennen, kan dat je helpen om je data beter te doorgronden waardoor je analyses betrouwbaarder en meer valide worden. In de (recente) geschiedenis vinden we overigens tal van voorbeelden van dit verschijnsel: het overkomt wetenschappers, entrepreneurs en onderzoekers.

SUCCES BEHALEN OF NIET FALEN?

In het boek “The Black Swan: The Impact of the Highly Improbable” schrijft Nassin Taleb: “The cemetery of failed restaurants is very silent.” Vaak worden de succesverhalen van entrepreneurs gebruikt als voorbeeld hoe het moet, maar naast die kleine hoeveelheid succesverhalen bestaat een veelvoud aan entrepreneurs die het niet redden. Bill Gates (Microsoft), Jeff Bezos (Amazon), Mark Zuckerberg (Facebook) zijn inderdaad succesvol in hun business, maar zij kunnen slechts één kant van het verhaal vertellen: hoe zij het hebben gedaan en hun succes hebben behaald. Alle anderen, die wellicht exact dezelfde stappen hebben ondernomen, die exact hetzelfde talent (of zelfs meer) bezitten, die ook 100% ambitie hebben getoond, zij hebben het niet gehaald en hun verhaal is misschien nog wel interessanter. Zij kunnen je namelijk vertellen wat er gebeurd is waardoor zij gefaald hebben. Juist in deze verhalen zit vaak wijsheid waaruit we kunnen afleiden waarom dingen fout gaan, waarom we falen. Als we alleen maar focussen op diegenen die “overleven”, missen we de volledige scope van de data en begrijpen we niet hoe onze processen daadwerkelijk functioneren.

“The cemetery of failed restaurants is very silent.” – Nassin Taleb

VALLENDE KATTEN

Een ander voorbeeld is ontstaan in 1987: een groep wetenschappers onderzoekt hoe groot de kans is dat katten een val van een bepaalde verdieping overleven. De onderzoekers baseren hun conclusies op data verkregen van dierenartsen. Die zijn hoogst opmerkelijk te noemen: de onderzoekers stellen vast dat hoe hoger de kat valt, hoe groter de kans op overleving is. Het is zelfs zo dat 100% van de katten die van de zesde verdieping of hoger vallen hun val overleven. Volgens de onderzoekers kan dit doordat de katten de maximale valsnelheid behalen tijdens zo’n val en zich ontspannen en vervolgens klaarmaken voor de landing met als gevolg een betere kans op overleving.

The Straight Dope Newspaper wist deze theorie 10 jaar later te ontkrachten. Er is in deze casus namelijk ook sprake van survivorship bias: de onderzoekers troffen bij de dierenartsen slechts data aan van de katten die behandeld waren. Aangezien er geen informatie was over katten die van een hogere verdieping vielen, namen de onderzoekers aan dat deze katten hun val dus zonder kleerscheuren overleefden. Het tegendeel was echter waar: deze katten overleden (vrij) direct als gevolg van hun val en hebben dus nooit de operatietafel van de dierenarts gehaald. Daardoor werden ze niet geregistreerd, en maakten ze dus geen deel uit van de dataset.

VLIEGTUIGEN TIJDENS WOII

Het is 1943: grote delen van Europa worden bezet door Duitse troepen. De geallieerden proberen hier en daar openingen in de verdediging te slaan, onder meer met vliegtuigbommen maar nog zonder al te veel succes. Veel vliegtuigen worden uit de lucht geschoten en gaan verloren. Het Center for Naval Analyses is daarom op zoek naar een mogelijkheid om de bommenwerpers meer te bepantseren. Om ervoor te zorgen dat de vliegtuigen nog steeds kunnen opstijgen, kan niet de hele machine worden voorzien van een verstevigde laag: men moet dus kiezen op welke delen een extra pantser wordt geïnstalleerd. Terwijl de experts van het Center for Naval Analyses noteren waar de vliegtuigen die terugkomen het meest zijn geraakt, wordt ondertussen de hulp ingeschakeld van de Statistical Research Group (SRG) van Columbia University.

Climber blog plane WWII
Qlik Sense filter pane blog

Het is Abraham Wald, in 1938 nog gevlucht naar de Verenigde Staten tijdens de opmars van de Duitse troepen, die met een onverwachte conclusie komt: verstevig de vliegtuigen op de plekken waar de machine níet is geraakt. Wald komt tot deze bevinding door te stellen dat vliegtuigen die terugkomen zijn geraakt op niet-fatale plekken: zij hebben ondanks de schade toch terug kunnen keren. De vliegtuigen die geraakt zijn op andere plekken hebben het blijkbaar niet gered, en dat is de reden waarom volgens Wald de machines beter kunnen worden bepantserd op deze delen. Het advies wordt opgevolgd en mede dankzij de statistische benadering van het probleem door Wald winnen de geallieerden terrein.

“The extra armor belonged not on the part of the plane that could survive a lot of bullets, but to the part of the plane that couldn’t.”  – Abraham Wald

Qlik Sense Survivorship Bias

SURVIVORSHIP BIAS IN QLIK SENSE

De cognitieve engine van Qlik helpt je om survivorship bias tegen te gaan. In de afbeelding hierboven zijn alle type Hole Location geselecteerd (groen), behalve ‘No Holes’ (lichtgrijs). Vervolgens geeft Qlik overzichtelijk weer welke selectiemogelijkheden in Plane en Status nog beschikbaar zijn (wit), en welke niet beschikbaar zijn (donkergrijs). Met deze selectie in Hole Location zien we dat alle vliegtuigen die als status ‘Shot Down’ hebben buiten de dataset vallen. Met andere woorden: vliegtuigen met deze schade keren terug en worden dus niet fataal geraakt. Qlik zorgt er dus voor dat jij geen data mist: door gebruik te maken van verschillende kleuren wordt duidelijk wat er wel en wat er niet tot de (geselecteerde) dataset behoort. Op die manier zie jij tijdens je analyse niets over het hoofd!

Meer weten over hoe Qlik jouw data inzichtelijk kan maken?

Onze consultants helpen je graag je data goed te structureren en in kaart te brengen zodat jij goed geïnformeerde beslissingen kan nemen. Neem gerust contact met ons op of vraag een vrijblijvende demo aan.

// Geschreven door: Ronan Berendsen – BI Consultant Climber

Email: ronan.berendsen@climber.nl
Phone: +31 6 15 28 07 42

Bron:
Mangel, M., & Samaniego, F. J. (1984). Abraham Wald’s work on aircraft survivability.
Wald, A. (1980). A Reprint of’A Method of Estimating Plane Vulnerability Based on Damage of Survivors (No. CRC-432).
https://blog.qlik.com/the-hole-story-and-bias-in-ai

Ronan Berendsen - BI Consultant Climber
Gepubliceerd 2020-02-04

Nieuws

What’s New in Qlik Cloud – April 2024
Blog

What’s New in Qlik Cloud – April 2024

This month you will find out about new releases in Qlik Cloud Data Integration for the Data Movement Gateway, new SaaS application connectors, and a new data connection interface. In the analytics world, you will find enhancements to reporting, app styling, and administration.

>> Read more
What’s New in Qlik Cloud – March 2024
Blog

What’s New in Qlik Cloud – March 2024

Want to stay up to date with the latest enhancements on the Qlik Cloud Platform? Then visit this monthly blog to learn about the top 10 updates within the Data Analytics and Data Integration area and how you can use these new features in your daily work.

>> Read more
Qlik Partner Ambassadors of 2024
Nieuws

Qlik Partner Ambassadors of 2024

Qlik has announced their Partner Ambassadors of 2024! We’re super proud to have Olof Malmström among them for the third consecutive year. Read Olof’s thoughts on why this is an honorable and important assignment.

>> Read more here!