Цитата Сендхила Муллайнатана

Проблема с данными в том, что они говорят о многом, но в то же время ничего не говорят. «Большие данные» — это прекрасно, но обычно они невелики. Чтобы понять, почему что-то происходит, мы должны заниматься как криминалистикой, так и догадками.
Люди думают, что «большие данные» позволяют избежать проблемы дискриминации, потому что вы имеете дело с наборами больших данных, но на самом деле большие данные используются для все более и более точных форм дискриминации — формы «красной черты» данных.
Я собираюсь сказать что-то довольно спорное. Большие данные, как их сегодня понимают люди, — это просто увеличенная версия малых данных. Принципиально то, что мы делаем с данными, не изменилось; там просто больше.
Давайте посмотрим на кредитование, где они используют большие данные для кредитной стороны. И кстати, это просто улучшенные кредитные данные, что мы тоже делаем. Ничего мистического. Но они очень хорошо уменьшают болевые точки. Они могут подписать это быстрее, используя — я просто назову это большими данными, за неимением лучшего термина: «Почему это занимает две недели? Почему вы не можете сделать это за 15 минут?»
Каждый раз, когда ученые не согласны, это происходит потому, что у нас недостаточно данных. Затем мы можем договориться о том, какие данные нужно получить; получаем данные; и данные решают проблему. Либо я прав, либо ты прав, либо мы оба не правы. И мы идем дальше. Такого разрешения конфликтов не существует ни в политике, ни в религии.
Когда экономист говорит, что данные «смешанны», он или она имеет в виду, что теория говорит об одном, а данные говорят об обратном.
Apple знает много данных. Facebook знает много данных. Amazon знает много данных. Microsoft использовала и до сих пор делает с некоторыми людьми, но в новом мире Microsoft знает обо мне все меньше и меньше. Xbox по-прежнему много знает о людях, которые играют в игры. Но это большая пятерка, я думаю.
Подрывная технология — это теория. Он говорит, что это произойдет, и вот почему; это утверждение причины и следствия. В нашем обучении мы так превозносим достоинства принятия решений на основе данных, что во многих отношениях осуждаем менеджеров за то, что они способны действовать только после того, как данные станут ясными и игра окончена. Во многих отношениях хорошая теория точнее данных. Это позволяет более четко видеть будущее.
Одна из проблем [больших данных] заключается в том, как мы можем понимать и использовать большие данные, когда они поступают в неструктурированном формате.
В то время как большие данные связаны с поиском корреляций и, таким образом, с постепенными изменениями, малые данные связаны с причинно-следственными связями, пытаясь понять причины.
Специалист по обработке и анализу данных — это уникальное сочетание навыков, которые могут как раскрыть понимание данных, так и рассказать фантастическую историю с помощью данных.
Научные данные не берутся для музейных целей; они берутся за основу для совершения чего-либо. Если с данными ничего не поделаешь, то и собирать их бесполезно. Конечной целью сбора данных является предоставление основы для действий или рекомендаций для действий. Промежуточным этапом между сбором данных и действием является прогнозирование.
Большие данные уже давно используются людьми — только в обычных приложениях. Страхование и стандартизированные тесты — примеры больших данных, существовавших до появления Интернета.
Facebook собирает много данных от людей и признает это. И он также собирает данные, которые не допускаются. И Google тоже. Что касается Microsoft, я не знаю. Но я знаю, что в Windows есть функции, которые отправляют данные о пользователе.
Предубеждения и слепые пятна существуют в больших данных так же, как и в индивидуальном восприятии и опыте. Тем не менее, существует проблематичное убеждение, что большие данные всегда являются лучшими данными и что корреляция так же хороша, как и причинно-следственная связь.
Люди считают, что лучший способ извлечь уроки из данных — это выдвинуть гипотезу, а затем проверить ее, но данные настолько сложны, что тот, кто работает с набором данных, не будет знать, что нужно спросить. Это огромная проблема.
Большие данные хороши, когда вы хотите проверить и количественно оценить небольшие данные, поскольку большие данные предназначены для поиска корреляции, а маленькие данные — для поиска причинно-следственной связи.
Этот сайт использует файлы cookie, чтобы обеспечить вам максимальное удобство. Больше информации...
Понятно!