Visual Analytics – Wie Bilder die Datenanalyse vereinfachen

Das Thema Visual Analytics hat in den vergangenen Jahren zunehmend an Bedeutung gewonnen. Nicht umsonst listen renommierte Marktforschungsberichte – wie der Gartner Magic Quadrant – den Prozess der grafischen Datenexploration unter den Top 5 Trends im Business Analytics Bereich. Doch wie hat sich dieser Trend entwickelt? Warum sollten wir uns mit Visual Analytics beschäftigen und wie läuft der Prozess ab? Der nachfolgende Artikel liefert Antworten auf diese Fragen und demonstriert anhand von einfachen Beispielen, welche Vorteile Visual Analytics gegenüber den traditionellen BI-Prozessen bietet und weshalb man diesen Trend für sich nutzen sollte.

Unternehmen sind heutzutage wegen des zunehmenden Wettbewerbs- und Innovationsdrucks gezwungen jede Möglichkeit der Verbesserung zu nutzen, um auch in Zukunft am Markt erfolgreich zu sein. Die Erfassung, Analyse und Darstellung von Daten spielen hierbei eine bedeutende Rolle. Diese Erkenntnis spiegelt sich im KPMG Report 2016 „Mit Daten Werte schaffen“ wieder. So sind bereits 80 % der befragten Unternehmen der Meinung mit Hilfe der Datenanalyse konkrete Nutzen erzielt, Geschäftsrisiken minimiert und Produkte sowie Dienstleistungen verbessert zu haben. Betrachtet man zudem die Prognosen eines führenden Anbieters von Datenspeicherlösungen, soll sich die Anzahl der jährlich generierten Daten vom Jahr 2016 mit 16 ZB bis zum Jahr 2025 auf kolossale 163 ZB erhöhen – was einer Verzehnfachung in weniger als zehn Jahren entspricht.

Die Fähigkeit, Daten zu sammeln und zu speichern nimmt also schneller zu, als die Fähigkeit diese zu analysieren. Das führt bei Entscheidungsträgern zu immer neuen Herausforderungen hinsichtlich der Analyseprozesse, da interessante Zusammenhänge, aufschlussreiche Muster und unerlässliche Erkenntnisse in der Datengewalt verborgen sind. Das Feld der Visual Analytics, hat zwar erst in den vergangenen Jahren an erheblicher Bedeutung dazugewonnen. Allerdings gab es schon vor langer Zeit grafische Auswertungen, welche die Vorteile von Visual Analytics gegenüber tabellarischen Auswertungen deutlich machten. Ein hervorragendes Beispiel dafür lieferte der englische Arzt John Snow im Jahr 1854:

Im Jahr 1830 erreichte die tödliche Seuche Cholera erstmals englischen Boden. Innerhalb von nur 20 Jahren sollen ihr bereits über 20.000 Menschen zum Opfer gefallen sein. Während die Ärzteschaft in diesen Zeiten noch der „Miasma‑Theorie“ anhing, wonach die Cholera wie auch andere Erkrankungen durch kaum definierbare üble Bestandteile der Luft hervorgerufen wurden, hatte der Londoner Arzt John Snow das Trinkwasser im Verdacht. Dieses wurde im Wesentlichen von zwei Londoner Gesellschaften geliefert – der Lambeth Water Company und Southwark and Vauxhall. Nachdem die Seuche im Jahr 1854 wie nie zuvor wütete und innerhalb von nur zehn Tagen mehr als 500 Einwohner einer Nachbarschaft dahinraffte, war die Geburtsstunde des „disease mapping“ gekommen. John Snow erstellte eine Karte, auf der er jeden Todesfall mit einer schwarzen Markierung verzeichnete.

Dr. John Snow’s Karte des Broad Street Cholera Ausbruchs in Soho, London im Jahr 1854 – Quelle: http://www.antiquemapsandprints.com/blog/2016/03/11/dr-john-snows-maps-of-the-1854-broad-street-cholera-outbreak-in-soho-london/

Im Zentrum der am schlimmsten von der Seuche betroffenen Straße – der Broad Street – war die inzwischen berühmt-berüchtigte „Broad-Street-pump“ eingezeichnet. Während die Mortalität in den von den beiden Gesellschaften mit Trinkwasser versorgten Gebieten in den Jahren 1848/49 noch etwa gleich hoch war, hatte sich eine entscheidende Gegebenheit geändert: Die Lambeth Water Company bezog ihr Wasser nicht mehr aus der Themse bei London, sondern aus einer ländlichen Region des Flusslaufs. Die „Broad-Street-pump“ jedoch wurde von Southwark and Vauxhall versorgt.

Die Information, dass die Todeszahlen unter den Kunden der Southwark and Vauxhall jene unter den Kunden der Lambeth um das Sieben- bis Achtfache übertrafen, bestätigte John Snow in seinem Verdacht, dass das verunreinigte Wasser der Themse bei London zur Verbreitung der Cholera geführt hatte. Mit dem Ziel weitere Übertragungen zu verhindern entfernte John Snow daraufhin den Handgriff der Pumpe an der Broad Street. Die daraus resultierende rückläufige Sterberate war sein Argument zur Korrektur der allgemeingültigen Meinung hinsichtlich der Übertragung der Seuche. Außerdem konnte er die Öffentlichkeit nun von der Notwendigkeit eines echten Abwassersystems überzeugen. Auf diese Weise gelang es, die Brunnen vor Verunreinigungen zu schützen und der Cholera in England Einhalt zu gebieten.

“The greatest value of a picture is

when it forces us to notice what we

never expected to see”

– John Tukey, 1977

Der Visual Analytics Prozess

Für viele Anwender in Unternehmen dient die Datenexploration vor allem dazu, Berichte und Dashboards zu erstellen. Dabei ist sie eigentlich als Prozess analytischer Schlussfolgerungen anzusehen, der durch interaktive visuelle Benutzeroberflächen realisiert wird und sich aus zwei Teilprozessen zusammensetzt – der Datenvisualisierung und den Visual Analytics.

Ziel der Datenvisualisierung ist die Beantwortung einer begrenzten Anzahl von Fragen nach dem „Was“. In statisch oder interaktiv aufgebauten Berichten geht es hierbei zum Beispiel darum, den Deckungsbeitrag eines Quartals mit dem des Vorjahres zu vergleichen. Möglicherweise hat der Anwender sogar die Möglichkeit, die betrachtete Periode zu verändern oder zusätzlich zum Deckungsbeitrag noch den Umsatz anzuzeigen.

Doch was passiert, wenn die Daten auf ein Problem – zum Beispiel den Gewinnrückgang im zweiten Quartal – hindeuten? Um dieser Sache auf den Grund zu gehen, ist es erforderlich, die Daten selbst zu untersuchen. An dieser Stelle kommt Visual Analytics zum Einsatz. Es wird als dynamischer, etappenweise aufgebauter Prozess verstanden, in dessen Rahmen der Anwender schnell viele Ansichten erstellt, um die Frage nach dem „Warum“ zu klären. Anhand dieser Ansichten kann der Anwender beliebig viele Sachverhalte verfolgen und deren Ursachen ermitteln. Visual Analytics unterstützt den Anwender also dabei, seine Daten zu untersuchen, Antworten zu finden und Rückschlüsse daraus zu ziehen. So wird die Datenabfrage, -exploration und -visualisierung in einem Prozess zusammengefasst.

Im Beispiel des rückläufigen Gewinns im zweiten Quartal könnte der Anwender also ein Diagramm erzeugen, welches den Gewinn pro Produktkategorie anzeigt. Stellt sich dabei heraus, dass die Möbelsparte nicht das Gewinnziel des Quartals erreicht, könnte er in einer weiteren Visualisierung untersuchen, welche Möbel von den Gewinneinbußen betroffen sind. Das Ergebnis des Prozesses könnte den Anwender zum Beispiel darauf aufmerksam machen, dass die Rabattpolitik im Bereich der Ledersessel die Gewinneinbußen verursacht.

Der nachfolgend dargestellte Prozess der Datenexploration gewährleistet also eine schnelle Untersuchung, Wiederholung, Prototypisierung und Skizzierung der Daten – entsprechend der Denkweise des Anwenders.

Darstellung des systematischen Ablaufs im Visual Analytics Prozess – Quelle: Eigene Darstellung

Präattentive Attribute der visuellen Wahrnehmung

Wie bereits erwähnt, spielen die Erfassung, Darstellung und Analyse von Daten für Analysten und Entscheider eine zentrale Rolle. Dabei hängt die Analyse der Daten von unserer Fähigkeit ab, Muster und Trends in Daten zu erkennen und zu verstehen.

Dass gut gestaltete Visualisierungen den traditionellen Darstellungen der Business Intelligence – vorwiegend in tabellarischer Form – vorzuziehen sind, lässt sich besonders gut am Beispiel des sogenannten Anscombe-Quartetts verdeutlichen. Dieses ergibt sich aus den vier in der nachfolgenden Tabelle aufgeführten Datenpaaren.

Gruppe A

Gruppe B

Gruppe C

Gruppe D

x

y

x

y

x

y

x

y

10

8,04

10 9,14 10 7,46 8 6,58
8

6,95

8 8,14 8 6,77 8 5,76
13

7,58

13 8,74 13 12,74 8 7,71
9

8,81

9 8,77 9 7,11 8 8,84
11

8,33

11 9,26 11 7,81 8 8,47
14

9,96

14 8,10 14 8,84 8 7,04
6

7,24

6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8

6,89

Ganz offensichtlich gelingt es kaum Muster und Trends in den vier Datenpaaren zu erkennen. Doch bevor die Daten visualisiert werden, lohnt es sich, die statistischen Eigenschaften der einzelnen Gruppen einmal näher zu betrachten.

Mittelwert von x (alle Gruppen):

9,00

Varianz von x (alle Gruppen):

11,00

Mittelwert von y (alle Gruppen):

7,50

Varianz von y (alle Gruppen):

4,12

Korrelation zwischen x und y (alle Gruppen):

0,81

Nachdem auch die Betrachtung der statistischen Eigenschaften keinen Aufschluss über die Unterschiede der verschiedenen Gruppen liefert, demonstriert die grafische Darstellung der Datenpaare die Effekte von Ausreißern sehr deutlich.

Grafische Darstellung der vier Datenpaare des Anscombe-Quartetts – Quelle: Eigene Darstellung

Darstellung einiger ausgewählter Präattentiver Attribute mittels Tableau – Quelle: Eigene Darstellung

Einige von ihnen dürften bereits aus verschiedenen Berichten bekannt sein. So erlaubt uns die räumliche Gruppierung der x- und y-Koordinaten im Beispiel des Anscombe‑Quartetts die schnelle Erfassung von Ausreißern und Mustern innerhalb der verschiedenen Gruppen. Doch was steckt dahinter?

Die Stärke hinter Visual Analytics

Voraussetzung für den Erfolg der Visual Analytics ist die Interaktion der menschlichen Wahrnehmung und Kognition mit maschineller Rechenleistung. Trotz der enormen Potenziale heutiger Rechner ist vieles, was uns Menschen besonders leicht fällt – zum Beispiel das Erkennen visueller Muster – für Computer nicht so einfach. Dafür können wir uns relativ wenig von dem, was wir wahrnehmen, auch merken. Die visuelle Wahrnehmung ist das Mittel, mit dem Menschen ihre Umgebung interpretieren – in diesem Fall eine Grafik auf einem Computerbildschirm. Dabei verarbeitet das menschliche Gehirn eine Zahl, einen Graphen oder eine Visualisierung als eine einzige Information. Der Ort, an dem wir diese Information zwischenspeichern, nennt sich Kurzzeitgedächtnis und ist vergleichbar mit dem RAM eines Computers, da es nur begrenzt für die Zwischenspeicherung ausgelegt ist. Im Vergleich zur Festplatte, die in einem Computer eingebaut ist, scheint der RAM sehr begrenzt zu sein, aber im direkten Vergleich mit dem Kurzzeitgedächtnis des menschlichen Gehirns ist der RAM enorm, denn unser Hirn ist in der Lage nur etwa vier dieser Informationen im Kurzzeitgedächtnis zu speichern. Sind alle vier dieser Speicherplätze belegt, muss eine Information gelöscht werden, um etwas Neues aufnehmen zu können. Da eine der Hauptaktivitäten bei der Datenanalyse das Vergleichen von Informationen ist, sollte man sich gut überlegen, wie man diese vier Speicherplätze belegt. So lassen sich die Werte der Tabelle zum Anscombe-Quartett nicht im Kopf vergleichen. Kombiniert man jedoch die jeweils elf Datenpaare zu den jeweils vier Punktdiagrammen, kann man sie möglicherweise vollständig als Informationen im Kurzzeitgedächtnis halten. Indem wir Werten eine einfache visuelle Form geben, sind wir in der Lage, viel mehr Informationen auf einmal zu speichern.

An diesem Punkt setzt die menschliche Kognition an. Sie beschreibt die Fähigkeit, das visuell Wahrgenommene anschließend zu verstehen und Erkenntnisse daraus zu ziehen. Dabei basieren die Erkenntnisse weitestgehend auf vorher Gelerntem. Darauf aufbauend ermöglichen die Visualisierungen den Analytikern, mit den automatischen – vom Computer übernommenen – Methoden zu interagieren, indem sie Parameter ändern oder andere Algorithmen auswählen. Dieser Wechsel zwischen visuellen und automatischen Methoden ist charakteristisch für den Visual Analytics Prozess und führt zu einer kontinuierlichen Verfeinerung und Verifizierung der vorläufigen Ergebnisse. Zudem können irreführende Ergebnisse unmittelbar als solche erkannt werden, was zu einem höheren Vertrauen in die gewählte Methode führt.

Fazit

Die Komplexität vieler Probleme macht es unerlässlich, die menschliche Intelligenz frühzeitig in den Prozess der Datenanalyse mit einzubeziehen. Die Visual Analytics Methoden erlauben es den Entscheidungsträgern ihr Hintergrundwissen sowie ihre Kreativität und Flexibilität mit den enormen Speicher- und Verarbeitungskapazitäten heutiger Computer zu kombinieren und so Einblicke in diese Probleme zu gewähren.

Viele Softwareanwendungen bieten bereits Funktionen, um Diagramme oder Berichte zu erstellen, doch die Datenexploration ist ein Prozess des analytischen Denkens, der durch interaktive visuelle Schnittstellen erleichtert werden soll. Umständliche, zeitaufwändige Funktionen verhindern, dass der Verstand den notwendigen Flow für eine solche Analyse aufbaut. Damit Ihre Aufmerksamkeit den Besonderheiten der Daten gegenüber aufgeschlossen bleibt, benötigen Sie Werkzeuge, welche die Daten aus mehreren Perspektiven gleichzeitig anzeigen können. Gute Visual‑Analytics‑Plattformen wie Power BI, Tableau oder Yellowfin ermöglichen Ihnen nach Belieben in interessanten Daten zu stöbern, Ausreißer aufzuspüren und wichtige Einsichten schneller zu gewinnen, um so ein präziseres Bild davon zu erhalten, was eigentlich hinter den Daten liegt.