Datenkompetenz, Digitalkompetenz, Technologiekompetenz: Ja, verstanden! Natürlich brauchen wir das! – Nicht jedes Unternehmen richtet darum eine Akademie ein, stellt Mitarbeiter für Schulungen frei oder verfügt über üppige Weiterbildungsbudgets. Die Antwort: MOOC.

MOOC sind Massive Open Online Courses, hier werden Schulungsinhalte von Experten in Online-Schulungen vermittelt, und zwar kostenfrei. Eine wirklich gute Plattform für Einsteiger ist zweifelsohne die Online-Plattform des Hasso Plattner Instituts. Es ist nicht mehr als ein Browser erforderlich. Die Kurse sind sehr professionell aufbereitet, die einzelnen Videosequenzen sind zwischen 3 bis 10 Minuten lang, also kleine „Lernhäppchen“, die man auch einfach auf dem Weg von / zur Arbeit konsumieren kann. Fast zu jedem Lernvideo gibt es ein einfaches Quiz. Der Referent ist der (wirklich) sehr sympathische Professor Felix Naumann. Es macht Spaß ihm zuzuhören.

Ich stelle hier einmal den Kurs Data Engineering und Data Science vor (der zum Zeitpunkt der Veröffentlichung dieses Blogs übrigens noch läuft). Es handelt sich um einen Einsteigerkurs für all diejenigen, die mit wenig (oder gar keinem Wissen rund um Datenmanagement) etwas zu Data Science, Big Data und Datenmanagement in Zeiten von Cloud lernen möchten. Der Kurs ist in 6 Wochen strukturiert, das Videomaterial je Woche lässt sich in ca. 3 bis 4 Stunden bewältigen; für diejenigen, die sich tiefer einarbeiten möchten, gibt es einige weiterführende Links.

Der Kurs ist eine theoretische Einführung in Konzepte und Methoden, das zeigt auch der Untertitel des Kurses auch klar an, nämlich: „Data Engineering und Data Science – Klarheit in den Schlagwort-Dschungel“. Es sind darum keine Programmierkenntnisse erforderlich; es werden aber auch keine Programmierkenntnisse vermittelt, überhaupt gibt es keine praktischen Übungen. Das ist ein wenig Schade, aber möglicherweise bietet das Open HPI hierzu in Zukunft noch ein Kursangebot an.

Was das Open HPI etwa anbietet (Kursstart: 11ter März) ist Praktische Einführung in Deep Learning für Computer Vision. Ich verweise an der Stelle auch auf eine andere Empfehlung meinerseits, nämlich ein (sehr preisgünstiges) Kursangebot von „udemy“, nämlich ein praktisch orientierter Kurs zum Thema Maschinenlernen: Freier Online-Kurs “Elements of AI”. Ähnliche gute Angebote gibt es natürlich auch von „Udacity“.

Am Ende dieses Blogartikel eine Kurzbeschreibung der Inhalte in den 6 Lernwochen. Und nachfolgend ein sehr guter und hochaktueller Vortrag eines Data Scientist, der Big Data der Deutschen Bahn AG ausgewertet hat und diese einer sehr gründlichen Auswertung hinsichtlich Pünktlichkeit und mehr unterzogen hat.

BahnMining: Data Science in der Praxis am Beispiel von Big Data der Deutschen Bahn

Der Data Scientist David Kriesel stellt in sehr unterhaltsamer Weise Auswertungen zu Big Data der Deutschen Bahn AG vor. Dabei analysiert er nicht nur die Daten, sondern führt auch durch die Data Science Pipeline vom Download der Daten, rechtlichen Überlegungen bis hin zum Erkenntnisgewinn. Film ab!

Die MOOC-Kursinhalte in der Übersicht

WOCHE 1

In der Ersten Woche gibt der Referenz Professor Felix Naumann vor allem einen Überblick und führt in das Thema ein: Woher kommen Daten, in welcher Form liegen Daten vor, in welchen Formaten, welche Herausforderungen gibt es?

Stichworte: SQL, Datenbanken, Datenbanksysteme, Data Warehouse, XML, JSON, Verteilte Datenbankmanagementsysteme (DBMS), Partitionierung, Round Robin Partitionierung, Hash Partitionierung, NoSQL, NewSQL, Graphendatenbanken, Clustering, Data Mining, Klassifikation, Big Data, Volume, Velocity, Variety, Veracity, Variability, Virality, Linked Open Data (getrieben von Tim Berners Lee; 4 Prinzipien; ), Hidden Web, Government Data, Unternehmensdaten, Logdaten, Open Government Data, Citizen Science, URI (Uniform Resource Identifier = globale ID für Daten), Linked Open Data (maschinenlesbar), Text Mining.

Man lernt hier einige spannende Fakten; auch erfahrene Entwickler und IT Experten dürften auf die ein oder andere interessante Information aufmerksam werden, die sie vielleicht noch nicht kannten: Wussten Sie, dass bei SAP Anwendungen bei großen Unternehmen rund 67.000 Datenbanktabellen zugrunde liegen? Und ein interessantes Beispiel für die Verarbeitungsgeschwindigkeit (velocity) von Anwendungen: An einem Cyber Monday fanden bei Amazon in der Vergangenheit 37 Mio. Käufe an einem Tag statt, das sind Hunderte von Verkäufen und zu verarbeitenden Transaktionen pro Sekunde.

Es finden sich im Kurs auch Links zu diversen Datenquellen. Etwa zur NASA, wo man 32 Petabyte an Klimadaten herunterladen kann – wenn es denn die Internetverbindung hergibt und ausreichend Plattenspeicher zur Verfügung stehen. Für den Einstieg dürften etwa Daten des Statistischen Bundesamtes reichen, hier ist der Link: https://www.destatis.de. Und wer sich für wissenschaftliche Daten interessiert, der wird etwa beim CERN fündig (Link: http://opendata.cern.ch/).

WOCHE 2

Die Zweite Woche gibt einen Überblick darüber, wofür Big Data und Datengetriebene Anwendungen grundsätzlich eingesetzt werden. Der Referent gibt einen Überblick, welche Methoden eingesetzt werden, auch ethische Fragen werden thematisiert.

Stichworte: Home Automation (Smart Home), Predictive Maintenance, Data Science Pipeline, Datenbereinigung (curation), Datenanreicherung, Das Vierte Paradigma der Wissenschaft, Korrelation vs Kausalität, Recommender Systeme / Kollaboratives Filtering, Cold Start Problem, Serendipity, Turing Test, Künstliche Intelligenz, Metzinger-Test, Expertensysteme, Schwache Intelligenz, Starke Intelligenz, Singularität, Datenkompetenz (data literacy), Datenkodierung, Ethik; Dual Use, Text Mining, Natural Language Processing, Knowledge Extraction, Wissensgraph, Term frequency inverse document frequency (TF-IDF), Stoppworte, Computerlinguistik, Tokenisierung, morphologische Analyse, Dialog- und Diskursanalyse, Semantische Analyse, Syntaktische Analyse, Named Entity Recognition, Named Entity Disambiguation, Wikidata, Linguistische Maße (Komplexitätsmaße: Durchschnittliche Satzlänge; Hapax Legomena; Verslänge), Word Embedding, Sentiment Analyse.

Zu den interessanten Links gehört die Webseite www.wolframalpha.com: Auf dieser Seite wird die linguistische Analyse erkennbar, da Suchanfrage in Satzform in einzelne Bestandteile zerlegt und semantisch interpretiert werden. Ebenfalls interessant sind die beiden URL www.wikidata.org sowie www.dbpedia.org: Es handelt sich um das Wikipedia in maschinenlesbarer Form.

WOCHE 3

In der Dritten Woche werden Prinzipien und Methoden im Datenmanagement behandelt, und zwar rund um verteilte Datenhaltung, die Cloud und Anforderungen an hohe Performanz.

OLTP (Online Transaction Processing), Parallelisierung (Aufgaben-Parallelismus; Anweisungs-Parallelismus; Daten-Parallelismus), OLAP, Amdahl’s Gesetz, Namenode, Datanode, Bekannte verteilte Dateisysteme sind z.B. Ceph, GlusterFS und HDFS; Batchverarbeitung; Stapelverarbeitung; Datenstromverarbeitung; Skalierungsmuster, MapReduce, Hadoop, Hadoop Framework, Apache Stiftung, Map/Reduce Master, Map/Reduce Slave, Hadoop Distributed File System (HDFS), Datenreplikation, Rollback, ACID (Atomicity, Consistency, Isolation, Durability), BASE (Basically Available, Soft-State, Eventually Consistent), CAP-Theorem (Consistency, Availability, Partition-Tolerance), Daten-Partitionierung, Fragmentierung, Allozierung, Replikation, Lastbalancierung, Horizontale Fragmentierung, Vertikale Fragmentierung, Round Robin Partitionierung, Hash Partitionierung, Bucket, Bereichspartitionierung, Consensus-Protokolle, Blockchain (Consensus-Protokoll), Raft, Paxos, Cloud Computing, Scale up, Scale out, Scale in,

WOCHE 4

Stichworte: Informationsqualität, Datenqualität, Datenvandalismus, Messung von Datenqualität, Datenvorverarbeitung (data preparation), Datenreinigung, Duplikaterkennung, Datenfusion

WOCHE 5

Stichworte: Schwierigkeiten der Informationsintegration, Autonomie und Heterogenität, Schema Matching, Schema Mapping, Materialisierte Integration, Data Warehouses, ETL, Business Intelligence, Data Lakes, Datenherkunft, Virtuelle Integration, Mediatoren / Wrapper, Deep Web

WOCHE 5

Stichworte: Statistik, Data Mining, Maschinenlernen

Sebastian Zang
Author

Der Autor ist Manager in der Softwareindustrie mit internationaler Expertise: Prokurist bei einem der großen Beratungshäuser - Verantwortung für den Aufbau eines IT Entwicklungszentrums am Offshore-Standort Bangalore - Director M&A bei einem Softwarehaus in Berlin.