Die Datenerfassung/-gewinnung beinhaltet alle Tätigkeiten, die zu Beginn des Verarbeitungs- bzw. Analyseprozesses stattfinden und Daten für weitere Verarbeitungsschritte verfügbar machen. Dies kann die Erfassung neuer Daten, beispielsweise mit Sensoren, die Zugänglichmachung von Daten durch geeignete Strukturierung oder Konvertierung aus anderen Formaten, aber auch die Recherche nach und Abfrage von geeigneten bereits existierenden Datensätzen sein. Gegebenenfalls können Daten mehrerer Quellen bereits an dieser Stelle zusammengeführt werden.
Zu John Snows Lebzeiten wurde das Wasser in London noch von öffentlichen Wasserpumpen geholt. Da John Snow vermutete, eine dieser Pumpen könnte verunreinigtes Wasser fördern, sammelte er nicht nur Daten zu den Cholera-Toten, sondern auch zu den Wasserpumpen.
Die Daten
Viele Daten lassen sich gut intabellarischer Form speichern und verarbeiten. Eine Tabelle hilft Daten strukturiert aufzubewahren.
Da die Daten über unsere Pumpen andere Eigenschaften haben, als die über die Cholera Toten, verwalten wir diesein unterschiedlichen Tabellen. Der Inhalt ist exemplarisch anhand der ersten Zeilen jeder Tabelle in untenstehender Abbildung dargestellt.
Datentypen
Zu analysierende Daten können von ganz unterschiedlicher Art sein: Mit Zahlen können wir rechnen, mit Zeichenketten nicht.
Diese unterschiedlichen Arten von Daten beschreibt man mit dem Begriff Datentyp.
Der Begriff Datentyp bezeichnet eine Menge von Objekten, die alle die gleiche Struktur haben und mit denen die gleichen Operationen durchgeführt werden können.
In unserem Beispiel finden sich bereits wichtige Datentypen: