Ein Zitat von Kate Crawford

Vorurteile und blinde Flecken gibt es bei Big Data ebenso wie bei individuellen Wahrnehmungen und Erfahrungen. Dennoch besteht die problematische Überzeugung, dass größere Daten immer bessere Daten sind und dass Korrelation genauso gut ist wie Kausalität.
Big Data ist großartig, wenn Sie kleine Daten verifizieren und quantifizieren möchten – denn bei Big Data geht es um die Suche nach einer Korrelation, bei Small Data um die Suche nach der Ursache.
Ich werde etwas ziemlich Kontroverses sagen. Big Data, wie die Menschen es heute verstehen, ist nur eine größere Version von Small Data. Grundsätzlich hat sich nichts an der Art und Weise geändert, wie wir mit Daten umgehen; es gibt einfach mehr davon.
Das große Geheimnis von Big Data ist Kausalität versus Korrelation.
Der größte Fehler ist die übermäßige Abhängigkeit von Daten. Manager werden sagen, wenn keine Daten vorliegen, können sie keine Maßnahmen ergreifen. Es liegen jedoch nur Daten über die Vergangenheit vor. Wenn die Daten schlüssig sind, ist es zu spät, auf der Grundlage dieser Schlussfolgerungen Maßnahmen zu ergreifen.
Man denkt, dass „Big Data“ das Problem der Diskriminierung vermeidet, weil man es mit großen Datensätzen zu tun hat, aber in Wirklichkeit wird Big Data für immer präzisere Formen der Diskriminierung verwendet – eine Form des Data Redlining.
Einer der Mythen über das Internet der Dinge besagt, dass Unternehmen über alle Daten verfügen, die sie benötigen, ihre eigentliche Herausforderung jedoch darin besteht, sie zu verstehen. Tatsächlich sind die Kosten für die Erhebung einiger Datenarten nach wie vor zu hoch, die Qualität der Daten ist nicht immer gut genug und es bleibt schwierig, mehrere Datenquellen zu integrieren.
Wir sollten immer misstrauisch sein, wenn maschinelle Lernsysteme als frei von Voreingenommenheit beschrieben werden, wenn sie auf von Menschen generierten Daten trainiert wurden. Unsere Vorurteile sind in diese Trainingsdaten integriert.
Wenn Wissenschaftler anderer Meinung sind, liegt das daran, dass wir nicht über ausreichende Daten verfügen. Dann können wir uns darauf einigen, welche Art von Daten wir erhalten; wir bekommen die Daten; und die Daten lösen das Problem. Entweder habe ich recht, oder du hast recht, oder wir liegen beide falsch. Und wir machen weiter. Eine solche Konfliktlösung gibt es weder in der Politik noch in der Religion.
Meiner Ansicht nach veranschaulicht unser Umgang mit der globalen Erwärmung alles, was an unserem Umgang mit der Umwelt falsch ist. Wir stützen unsere Entscheidungen auf Spekulationen, nicht auf Beweise. Befürworter drücken ihre Ansichten mehr mit PR als mit wissenschaftlichen Daten aus. Tatsächlich haben wir zugelassen, dass das ganze Thema politisiert wird – Rot gegen Blau, Republikaner gegen Demokrat. Das ist meiner Meinung nach absurd. Daten sind nicht politisch. Daten sind Daten. Politik führt Sie in die Richtung eines Glaubens. Daten führen Sie zur Wahrheit, wenn Sie ihnen folgen.
Wir sollten bei der Berücksichtigung von Daten vorsichtig sein, bevor sie in der wissenschaftlichen Presse veröffentlicht werden, und müssen stets vermeiden, Korrelation als Kausalität zu betrachten.
Schauen wir uns die Kreditvergabe an, wo Big Data für die Kreditwürdigkeit genutzt wird. Und es handelt sich übrigens nur um die Anreicherung von Kreditdaten, was wir auch tun. Es ist nichts Mystisches. Aber sie sind sehr gut darin, die Schmerzpunkte zu reduzieren. Sie können es schneller absichern, indem sie – ich nenne es einfach Big Data, weil es keinen besseren Begriff gibt: „Warum dauert es zwei Wochen? Warum schafft man es nicht in 15 Minuten?“
Die Größe spielt keine Rolle, Fast Data ist besser als Big Data
Mit zu wenigen Daten können Sie keine vertrauenswürdigen Schlussfolgerungen ziehen. Bei einer Menge Daten werden Sie auf Beziehungen stoßen, die nicht real sind ... Bei Big Data geht es nicht um Bits, sondern um Talent.
MapReduce ist zur Assemblersprache für die Big-Data-Verarbeitung geworden, und SnapReduce verwendet ausgefeilte Techniken, um SnapLogic-Datenintegrationspipelines in diese neue Big-Data-Zielsprache zu kompilieren. Unter Anwendung unseres gesamten Wissens über die beiden Welten der Integration und Hadoop haben wir unsere Technologie so entwickelt, dass sie direkt zu MapReduce passt und den Prozess der Konnektivität und Datenintegration im großen Maßstab nahtlos und einfach macht.
Bei der ersten Welle des Internets ging es eigentlich um den Datentransport. Und wir haben uns keine großen Gedanken darüber gemacht, wie viel Strom wir verbrauchen, wie viel Kühlbedarf in den Rechenzentren besteht und wie groß die Fläche des Rechenzentrums ist. Das waren fast nachträgliche Gedanken.
Wir erhalten mehr Daten über Menschen als jedes andere Datenunternehmen über Menschen, über irgendetwas – und das ist nicht einmal annähernd der Fall. Wir schauen uns an, was Sie wissen, was Sie nicht wissen und wie Sie am besten lernen. Der große Unterschied zwischen uns und anderen Big-Data-Unternehmen besteht darin, dass wir Ihre Daten aus keinem Grund an Dritte vermarkten.
Diese Website verwendet Cookies, um Ihnen das bestmögliche Erlebnis zu bieten. Mehr Info...
Habe es!