Big Data : Das digitale Orakel verkündet Intimitäten
Big Data, das Analysieren gigantischer Datenmengen, verspricht viel, nicht zuletzt Unternehmensgewinne. Das Durchforsten solcher digitaler Sammlungen dringt indes immer tiefer in unsere Privatsphäre ein.
Der Ausdruck «Privatheit» ist ziemlich alt. Entstanden ist er im alten Rom und bezeichnete den selbst gewählten Rückzug eines Menschen aus der Öffentlichkeit – privat sein bedeutet: nicht gesehen werden. Ist das im digitalen Zeitalter überhaupt noch möglich?
Heute hinterlassen wir immer mehr Datenspuren. Das geschieht teils bewusst, wenn wir mithilfe elektronischer Geräte kommunizieren, teils unbewusst und automatisch, wenn Maschinen unser Verhalten in Nullen und Einsen giessen: vernetzte Haushaltsgeräte, «smarte» Infrastrukturen für den Stromverbrauch oder die Verkehrslenkung, die Verbindungsdaten unserer Telefone. So entsteht ein immer detaillierteres informationstechnisches Abbild unseres Verhaltens – und das kann mit Big Data immer besser ausgewertet werden.
Big Data ist eine modische Sammelbezeichnung für diverse Verfahren der Datenanalyse, die über die bisherigen Datenbankauswertungen hinausgehen. Eingesetzt werden Maschinenlernen und bewährte statistische Verfahren wie Cluster- und Regressionsanalysen. Neu ist die schiere Datenmasse, die mittlerweile von Maschinen nach Mustern durchsucht werden kann. Via Twitter beispielsweise werden jeden Tag über 340 Millionen Kurznachrichten versendet – und immer mehr Unternehmen versuchen, diese herumschwirrenden Meldungen und Meinungen zu analysieren.
Wer profitiert denn da?
Statt wie bisher eine Stichprobe zu nehmen, von der man hofft, sie sei repräsentativ, werden nun einfach alle vorhandenen Daten ausgewertet: sämtliche Suchanfragen mit bestimmten Stichworten, alle Telefonverbindungen in einem definierten Zeitraum, alle Einkäufe in einer bestimmten Geschäftsfiliale. Ungenauigkeiten in den Messungen fallen deshalb meist weniger ins Gewicht.
Die Vorreiterinnen im Bereich Big Data waren Banken und Versicherungen, später kamen Einzelhandelsketten dazu. Sie produzieren in ihrem KundInnenverkehr ohnehin eine Menge Daten – jetzt lassen sich diese systematisch nutzen. Längst interessieren sich nicht mehr nur Grosskonzerne für die Datenmassen, sondern auch Behörden und mittelständische Unternehmen. Hier dienen die Analysen einer effizienteren Ressourcenplanung. So verbindet eine deutsche Drogeriekette etwa die Absatzzahlen mit Wettervorhersagen, um so den Personalbedarf zu planen.
Früher gaben Firmen Marktanalysen in Auftrag, um KundInnenwünsche, Nachfrage und Absatz zu prognostizieren – eine aufwendige und teure Angelegenheit. Mit Big Data werden solche Analysen nun alltäglich, zur gängigen Grundlage für strategische Entscheidungen. Rechenleistung ist heute übers Internet schnell und kostengünstig zu mieten. Statt externe ExpertInnen übernehmen standardisierte Analysetools die Datenaufbereitung (vgl. «Es begann mit Google» im Anschluss an diesen Text).
Big Data soll auf zweifache Art einen kommerziellen Mehrwert generieren: Einerseits ermöglicht das Verfahren Unternehmen, schneller und effizienter als die Konkurrenz zu sein. Andererseits kann mit Big Data das Warenangebot personalisiert werden. Ziel ist es, dem richtigen Kunden im richtigen Moment genau das richtige Angebot zu machen – mit dem maximalen Preis, den er zu zahlen bereit ist. Um diesen Traum zu verwirklichen, nutzten Werbeprofis schon immer psychometrische Verfahren, mittels derer sie die Einstellungen und Stimmungen der KundInnen zu erfassen und zu manipulieren suchten. Nun aber machen automatisierte Analysen von Datenmassen psychometrische Einblicke ganz neuer Qualität möglich.
Was heisst denn anonym?
Oft sind frei zugängliche Daten «anonymisiert», sie enthalten also keine Namen oder Ordnungsnummern. Aber auch zunächst unverbundene Daten lassen sich mit automatisierten Verfahren verbinden – und ermöglichen so tiefe Rückschlüsse auf unser ganz privates Verhalten. ForscherInnen des Massachusetts Institute of Technology werteten kürzlich anderthalb Millionen Mobilfunkverbindungen «aus einem kleinen europäischen Land» über einen Zeitraum von fünfzehn Monaten aus. Ein grosses Telekommunikationsunternehmen hatte ihnen die Daten zu Forschungszwecken überlassen. Weil unsere Bewegungsmuster offenbar sowohl ziemlich individuell als auch regelmässig sind, genügten vier Datenpunkte aus Standort und Zeitpunkt, um 95 Prozent der NutzerInnen zu identifizieren. Die Studie ist nur ein Beispiel dafür, wie sich aus vermeintlich anonymisierten Daten Individuen herausfiltern lassen. Ihre Identität zu ermitteln, ist dann nur noch ein kleiner und verhältnismässig einfacher Schritt.
Wir schmeicheln uns damit, so einzigartig zu sein wie eine Schneeflocke. Aus der Massendatenperspektive ist das nur eine angenehme Illusion. Was wir tun werden und wer wir sind, ist fast immer hinreichend gut berechenbar. PsychologInnen der University of Cambridge und der University of California veröffentlichten im März eine Studie, für die sie Daten eines sozialen Netzwerks auswerteten. Knapp 60 000 Freiwillige hatten ihre «Gefällt mir»-Klicks bei Facebook zur Verfügung gestellt. Auf dieser Grundlage bildeten die PsychologInnen nun Persönlichkeitsprofile der NutzerInnen; später überprüften sie ihre Annahmen mit Interviews.
Ihre Prognosen trafen die sexuelle Orientierung in 88 Prozent der Fälle, das Geschlecht in 83 Prozent und die ethnische Herkunft sogar in 95 Prozent der Fälle. Als besonders aussagekräftiger Faktor hinsichtlich einer homosexuellen Orientierung kristallisierte sich unter anderem eine Vorliebe für Musicals heraus, während Sympathie für die Rapgruppe Wu-Tang Clan gemäss der Analyse Heterosexualität nahelegt. Das klingt spassig, hat aber einen ernsten Hintergrund: Aus banalen Informationen lassen sich sehr intime Details ableiten.
Big Data wird «das Öl des 21. Jahrhunderts» genannt – der Rohstoff, der die Wirtschaft antreiben wird. Tatsächlich werden Daten immer mehr zu einer wertvollen Handelsware. Das Prinzip der Zweckbindung, wie es beispielsweise das Schweizer Datenschutzrecht vorsieht, schreibt eigentlich vor, dass Daten nur für den Zweck ausgewertet werden, zu dem sie erhoben worden sind. Eine Telefongesellschaft beispielsweise darf Ort und Zeitpunkt der Telefonate nur speichern, um später korrekt abzurechnen. Bei Massendaten laufen solche Vorgaben praktisch ins Leere – wenigstens solange die NutzerInnen kostenfreie Suchmaschinen und Plattformen benützen und sich als Gegenleistung von der Industrie durchleuchten lassen.
Es begann mit Google
Big Data bedeutet Rechnen mit Petabytes – also 1015 Bytes, eine schwer vorstellbare Zahl. Wie können Maschinen in so grossen Datenmengen Muster ausmachen? Ebendieses Problem hatte auch der Suchmaschinenkonzern Google: Wie können Millionen Internetseiten sekundenschnell durchsucht werden, um diejenigen herauszufiltern, die auf eine bestimmte Anfrage passen?
Mit Googles Algorithmus Map Reduce kann die Berechnung auf mehrere gleichzeitig arbeitende Computer verteilt werden. Ihre Ergebnisse werden dann im nächsten Schritt wieder zusammengefasst. 2006 stellte der Internetkonzern seine Algorithmen der Apache Software Foundation für ihre freie Software Hadoop zur Verfügung – seitdem verbreitet sich Big Data.