Big Data - Was ist das?

Last modified by TobiasSteinherr on 2018/02/08 13:41

Inhaltsverzeichnis

Umgangssprachlich sprechen wir häufig von Big Data, sobald Daten in ihrem Umfang, der Geschwindigkeit ihrer Verfügbarkeit und ihrer Vielfalt die Dimensionen bisheriger Datensätze bei weitem überschreiten. Salopp (und falsch) ausgedrückt: Die Daten passen nicht mehr auf ein Tabellenblatt (Batty 20131: 274).

Big Data


Nach gängiger Definition meint Big Data solche Daten, die ein hohes Maß an Volumen, Geschwindigkeit und Vielfalt („Volume, Velocity, Variety“) kennzeichnet. Mengenmäßig handelt es sich durchaus um Tera- oder Petabytes an Daten. Sie entstehen (nahezu) in Echtzeit und können strukturiert (z. B. in Datenbanken), unstrukturiert (z. B. Textnachrichten) oder semi-strukturiert (z. B. XML-Strukturen von Webseiten, XML = Extensible Markup Language) sein. Manchmal werden unter dem Begriff „Big Data“ auch Technologien zur Speicherung dieser Daten und Verfahren zur Analyse dieser Daten verstanden. Wir fassen den Begriff eng und verwenden ihn im Folgenden für Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. Der traditionellere Begriff im Deutschen ist Massendaten.

Big Data Kategorien nach Quellsystemen


Big Data lässt sich nach den Quellsystemen, mittels derer die Daten generiert werden, grob in drei Kategorien einteilen: Gerichtete Daten, automatisierte Daten sowie crowd­-generierte Daten. Gerichtete Daten (Directed Data) werden durch Überwachung generiert, wobei durch einen menschlichen Akteur der Fokus der datengenerierenden Technologie gezielt auf eine Person oder einen Ort gerichtet wird. Beispiele hierfür sind Kameradaten oder Satellitendaten. Automatisierte Daten entstehen systemimmanent als automatisches (Neben-)Produkt eines Geräts oder Systems. Typischerweise fallen Sensordaten oder Scannerdaten in diese Kategorie. Crowdgenerierte Daten (Volunteered Data) werden von Menschen erzeugt und einem System mit oder ohne Gegenleistung übergeben, wobei verschiedenste Technologien wie Social Media oder Wikis zum Einsatz kommen.

Open Data


Der Begriff Open Data wiederum bezeichnet nach der einfachsten Definition solche Daten, die für jeden frei in der Nutzung, Umnutzung und Weitergabe sind. Organisationen wie Open Definition oder OpenGovData legen weitere Kriterien wie etwa die Vollständigkeit, den Primärcharakter (d. h. keine Aggregation oder Modifikation) und die Maschinenlesbarkeit der Daten oder nicht-proprietäre Formate als eine Form technologischer Restriktionsfreiheit (z. B. csv- statt Excel-Format) an.

Linked Data


Der Begriff Linked Data bezieht sich auf die Idee des Semantic Web, die die Vorstellung des Internets als maschinenlesbaren Datenspeicher verknüpfter Daten beschreibt. Sämtliche Dokumente des Internets sollen dabei eindeutig identifizierbar sein, was durch die Nutzung einer Markup-Sprache und sogenannte URIs (Uniform Resource Identifier) ermöglicht wird. Das RDF (Resource Description Framework) beschreibt die zugrundeliegende Struktur der URIs – Daten sind schließlich nicht nur mit anderen Daten verknüpft, sondern auch mit Metadaten, also Daten über Daten.

Quelle


  1. ^ Batty, Michael, 2013: Big data, smart cities and city planning. Dialogues in Human Geography, S. 274–279.
Tags:
Created by TobiasSteinherr on 2018/02/08 13:41