Самая большая ошибка — это чрезмерная зависимость от данных. Менеджеры скажут, что если нет данных, они не могут предпринимать никаких действий. Однако данные существуют только о прошлом. К тому времени, когда данные станут окончательными, будет уже слишком поздно предпринимать действия, основанные на этих выводах.
Хотя многие поставщики больших данных делают все возможное, чтобы деидентифицировать людей из наборов данных о людях, риск повторной идентификации очень реален.
Я буду говорить о двух наборах вещей. Одна из них заключается в том, как производительность и сотрудничество меняют природу труда, и как это будет очень важно для мировой экономики. И второе, данные. Другими словами, глубокое влияние цифровых технологий, которое проистекает из данных и цикла обратной связи данных.
Данные и наборы данных не являются объективными; они являются творениями человеческого дизайна. Мы придаем числам их голос, делаем из них выводы и определяем их значение посредством наших интерпретаций.
Люди думают, что «большие данные» позволяют избежать проблемы дискриминации, потому что вы имеете дело с наборами больших данных, но на самом деле большие данные используются для все более и более точных форм дискриминации — формы «красной черты» данных.
Имея дело с данными, ученые часто пытались учесть риски и вред, которые может нанести их использование. Одной из основных проблем является конфиденциальность - раскрытие конфиденциальных данных о лицах либо непосредственно общественности, либо косвенно из наборов анонимных данных посредством вычислительных процессов повторной идентификации.
Один из мифов об Интернете вещей заключается в том, что у компаний есть все данные, которые им нужны, но их реальная проблема состоит в том, чтобы разобраться в них. В действительности стоимость сбора некоторых видов данных остается слишком высокой, качество данных не всегда достаточно хорошим, и по-прежнему сложно интегрировать несколько источников данных.
Данные преобладают. Если вы выбрали правильные структуры данных и хорошо все организовали, алгоритмы почти всегда будут очевидны. Структуры данных, а не алгоритмы, занимают центральное место в программировании.
Единственное, чего они [правительство] хотят, — это более качественные данные. Но данные не говорят людям, что кто-то хорошо образован. Это порочный круг. Тут замешан какой-то миф. Некоторые из этих подходов имеют долгую историю.
Предубеждения и слепые пятна существуют в больших данных так же, как и в индивидуальном восприятии и опыте. Тем не менее, существует проблематичное убеждение, что большие данные всегда являются лучшими данными и что корреляция так же хороша, как и причинно-следственная связь.
Однако, если мы будем собирать все больше и больше данных и устанавливать все больше и больше ассоциаций, мы не обнаружим в конце концов, что что-то знаем. Мы просто получим все больше и больше данных и все больше наборов корреляций.
Я никогда не буду спекулировать на данных. Мне всегда нужно видеть данные.
Мы всегда должны с подозрением относиться к системам машинного обучения, которые описываются как свободные от предвзятости, если они были обучены на данных, сгенерированных человеком. Наши предубеждения встроены в эти обучающие данные.
Люди считают, что лучший способ извлечь уроки из данных — это выдвинуть гипотезу, а затем проверить ее, но данные настолько сложны, что тот, кто работает с набором данных, не будет знать, что нужно спросить. Это огромная проблема.
Имея слишком мало данных, вы не сможете сделать никаких выводов, которым вы доверяете. С большим количеством данных вы обнаружите отношения, которые не являются реальными... Большие данные — это не биты, это талант.
Мы... пришли к несколько расплывчатому различию между тем, что мы можем назвать «жесткими» данными и «мягкими» данными. Это различие зависит от степени, и на него не следует настаивать; но если не относиться к этому слишком серьезно, это может помочь прояснить ситуацию. Под «жесткими» данными я подразумеваю те, которые противостоят растворяющему влиянию критического осмысления, а под «мягкими» данными те, которые под действием этого процесса становятся для нашего ума более или менее сомнительными.