Цитата Мартина Линдстрема

В то время как большие данные связаны с поиском корреляций и, таким образом, с постепенными изменениями, малые данные связаны с причинно-следственными связями, пытаясь понять причины. — © Мартин Линдстрем
В то время как большие данные связаны с поиском корреляций и, таким образом, с постепенными изменениями, малые данные связаны с причинно-следственными связями, пытаясь понять причины.
Большие данные хороши, когда вы хотите проверить и количественно оценить небольшие данные, поскольку большие данные предназначены для поиска корреляции, а маленькие данные — для поиска причинно-следственной связи.
Имея слишком мало данных, вы не сможете сделать никаких выводов, которым вы доверяете. С большим количеством данных вы обнаружите отношения, которые не являются реальными... Большие данные — это не биты, это талант.
Я собираюсь сказать что-то довольно спорное. Большие данные, как их сегодня понимают люди, — это просто увеличенная версия малых данных. Принципиально то, что мы делаем с данными, не изменилось; там просто больше.
Мы получаем больше данных о людях, чем любая другая информационная компания получает о людях, о чем угодно — и это даже близко не близко. Мы смотрим на то, что вы знаете, что вы не знаете, как вы учитесь лучше всего. Большая разница между нами и другими компаниями, работающими с большими данными, заключается в том, что мы ни при каких обстоятельствах не продаем ваши данные третьим лицам.
Люди думают, что «большие данные» позволяют избежать проблемы дискриминации, потому что вы имеете дело с наборами больших данных, но на самом деле большие данные используются для все более и более точных форм дискриминации — формы «красной черты» данных.
MapReduce стал языком ассемблера для обработки больших данных, а SnapReduce использует сложные методы для компиляции конвейеров интеграции данных SnapLogic в этот новый целевой язык больших данных. Применяя все, что мы знаем о двух мирах интеграции и Hadoop, мы создали нашу технологию, которая напрямую соответствует MapReduce, делая процесс подключения и крупномасштабной интеграции данных бесшовным и простым.
Данные — это не информация. ... Информация, в отличие от данных, полезна. Хотя между данными и информацией существует пропасть, между информацией и знаниями лежит широкий океан. В нашем мозгу работает не информация, а идеи, изобретения и вдохновение. Знание, а не информация, подразумевает понимание. А за пределами знания лежит то, что мы должны искать: мудрость.
Проблема с данными в том, что они говорят о многом, но в то же время ничего не говорят. «Большие данные» — это прекрасно, но обычно они невелики. Чтобы понять, почему что-то происходит, мы должны заниматься как криминалистикой, так и догадками.
Большие данные в основном связаны с получением чисел и использованием этих чисел для прогнозирования будущего. Чем больше у вас будет набор данных, тем точнее будут прогнозы на будущее.
Давайте посмотрим на кредитование, где они используют большие данные для кредитной стороны. И кстати, это просто улучшенные кредитные данные, что мы тоже делаем. Ничего мистического. Но они очень хорошо уменьшают болевые точки. Они могут подписать это быстрее, используя — я просто назову это большими данными, за неимением лучшего термина: «Почему это занимает две недели? Почему вы не можете сделать это за 15 минут?»
Одна из проблем [больших данных] заключается в том, как мы можем понимать и использовать большие данные, когда они поступают в неструктурированном формате.
Самая большая ошибка — это чрезмерная зависимость от данных. Менеджеры скажут, что если нет данных, они не могут предпринимать никаких действий. Однако данные существуют только о прошлом. К тому времени, когда данные станут окончательными, будет уже слишком поздно предпринимать действия, основанные на этих выводах.
Вот куда движется мир: прямой доступ из любого места к любому типу данных, будь то небольшой фрагмент данных или небольшой ответ, но длинный алгоритм для создания этого ответа. Пользователя это не волнует.
Один из мифов об Интернете вещей заключается в том, что у компаний есть все данные, которые им нужны, но их реальная проблема состоит в том, чтобы разобраться в них. В действительности стоимость сбора некоторых видов данных остается слишком высокой, качество данных не всегда достаточно хорошим, и по-прежнему сложно интегрировать несколько источников данных.
Первая волна Интернета действительно была связана с передачей данных. И мы не слишком беспокоились о том, сколько энергии мы потребляем, какие потребности в охлаждении необходимы в центрах обработки данных, насколько большой центр обработки данных с точки зрения недвижимости. Это были почти запоздалые мысли.
Мы используем около 5 тысяч различных точек данных о вас, чтобы создать и нацелить сообщение. Точки данных — это не просто репрезентативная модель вас. Точки данных касаются вас, в частности.
Этот сайт использует файлы cookie, чтобы обеспечить вам максимальное удобство. Больше информации...
Понятно!