Die Welt durch Daten verstehen

Looking forward into the future

Data Science

ist eine Sammlung von Prinzipien und Techniken zur Anwendung von datenintensiven Analysen um Phänomene zu untersuchen, neues Wissen anzusammeln und bereits erlangtes Wissen durch Messen von Korrektheit, Vollständigkeit und Effizienz der abgeleiteten Ergebnisse zu korrigieren und integrieren, entweder mit einer vorgegebenen (top-down) oder offenen (bottom-up) Spezifikation, Fragestellung oder Hypothese.[1]



Wozu wir fähig sind

Die Vorgänge innerhalb des menschlichen Geistes sind seit geraumer Zeit Gegenstand der wissenschaftlichen Forschung. Während das hierzu verwendete Organ von der physischen Seite in seinen Teilen weitestgehend erforscht und verstanden wurde tappt man bei dem globalen Verständnis der individuellen Wahrnehmung des menschlichen Geistes und der darauf folgenden Interaktion mit der (insbesondere mittlerweile immer komplexer werdenden) Umwelt noch weitestgehend im Dunkeln.

 

Im Laufe der menschlichen Evolution hat sich insbesondere die visuelle Wahrnehmung als Überlebensvorteil herausgestellt. Mühelos sehen wir Objekte und interpretieren sie mit Hilfe unseres Gedächtnisses in dem wir das Konzept des jeweiligen Objektes und unsere abgespeicherte Erfahrungen damit abgleichen.


“I never guess. It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts.”

Sir Arthur Conan Doyle



Sieben plus / minus zwei

The bone from 2001: A space odyssee

Demgegenüber steht die Tatsache, dass das Verständnis von komplexen Prozessen offensichtlich keinen Vorteil bedeutete und somit außerhalb unserer Fähigkeiten liegt. Das vielleicht bekannteste Beispiel dieser Erkenntnis ist der 1956 erschienene Artikel von George A. Miller, der im Kern die Limitierung der Verarbeitungsfähigkeit des menschlichen Geistes von sieben plus / minus zwei Informationseinheiten feststellte (George A. Miller: "The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information". In: The Psychological Review. Band 63, 1956, S. 81–97).

 

Im Laufe der Jahrtausende haben wir gelernt diesen Mangel durch eine weitere Eigenschaft und einer bestimmte Fähigkeit zu kompensieren. Die Eigenschaft ist die Neugierde und die Fähigkeit ist der Einsatz von Werkzeugen.

Moderne Werkzeuge

The complexity of Pi

In einer relativ zur gesamten Geschichte der Menschheit verblüffend kurzen Zeit hat sich der Mensch Werkzeuge geschaffen um seine Umwelt zu erklären und zu beeinflussen, wobei diese Beeinflussung selbstverstärkend wirkt und zu immer kürzeren Innovationszyklen führt.

 

Grundlegende Konzepte wie beispielsweise die Mathematik benötigten tausende Jahre in der Entwicklung, Theorien zum Verständnis der Welt hunderte. Die Industrialisierung beeinflusst unser Leben seit vielen Jahrzehnten. Die noch andauernde Digitalisierung unserer Gesellschaft findet hingegen in wenigen Jahren mit immer größer werdenden Innovationssprüngen statt. 

 

Gerade das Zusammenkommen von Datenverfügbarkeit und erweiterten technischen Möglichkeiten lies Unternehmen entstehen, deren Handelsware exklusiv aus Daten besteht und brachte sowohl eine Renaissance längst bekannter Konzepte als auch das Entstehen völlig neuer hervor. Statistische Datenanalysen, Business Intelligence, Data Warehouses, Big Data, AI, KDD  und etliche mehr erfahren gerade einen neuen Aufschwung, verfolgen ähnliche Ziele und benutzen oftmals die selben Werkzeuge und Vorgehensweisen. 

Vision und Mission

Unsere Rolle ist die Konsolidierung von allen Ergebnissen und Fortschritten im Data Science Umfeld und der Erarbeitung von Vorgehensmodellen für die praktische Umsetzung im Rahmen von reinen analytischen Tätigkeiten bis hin zur Integration der Ergebnisse in den operativen Betrieb mit dem Ziel die Welt durch Daten zu verstehen.


[1] frei übersetzt aus einer Definition von Dr. M. L. Brodie in Understanding Data Science: An Emerging Discipline for Data-Intensive Discovery, in Shannon Cutt (ed.), Getting Data Right: Tackling The Challenges of Big Data Volume and Variety, O’Reilly Media, Sebastopol, CA, USA, June 2015