Большое количество данных - Big data

Рост и оцифровка глобальной емкости хранения информации

Большие данные - это область, в которой рассматриваются способы анализа, систематического извлечения информации или иной работы с наборами данных , которые слишком велики или сложны для обработки традиционным прикладным программным обеспечением для обработки данных . Данные с большим количеством полей (столбцов) предлагают большую статистическую мощность , тогда как данные с более высокой сложностью (больше атрибутов или столбцов) могут привести к более высокому уровню ложного обнаружения . Большие проблемы анализа данных включают сбор данные , хранение данных , анализ данных , поиск, обмен , передачу , визуализацию , обработку запросы , обновление, конфиденциальность информации , а также источник данных. Первоначально большие данные были связаны с тремя ключевыми понятиями: объем , разнообразие и скорость . Анализ больших данных создает проблемы при выборке, и поэтому ранее допускались только наблюдения и выборки. Поэтому большие данные часто включают данные, размеры которых превышают возможности традиционного программного обеспечения для обработки в приемлемые сроки и приемлемые затраты .

Текущее использование термина « большие данные» имеет тенденцию относиться к использованию прогнозной аналитики , аналитики поведения пользователей или некоторых других методов расширенного анализа данных, которые извлекают ценность из больших данных, и редко к конкретному размеру набора данных. «Нет никаких сомнений в том, что количество доступных сейчас данных действительно велико, но это не самая важная характеристика этой новой экосистемы данных». Анализ наборов данных может найти новые корреляции для «выявления тенденций в бизнесе, предотвращения болезней, борьбы с преступностью и так далее». Ученые, руководители предприятий, практикующие врачи, представители рекламного агентства и правительства регулярно сталкиваются с трудностями при работе с большими наборами данных в таких областях, как поиск в Интернете , финансовые технологии , аналитика здравоохранения, географические информационные системы, городская информатика и бизнес-информатика . Ученые сталкиваются с ограничениями в работе над электронной наукой , включая метеорологию , геномику , коннектомику , сложные физические симуляции, биологию и исследования окружающей среды.

Размер и количество доступных наборов данных быстро росли по мере того, как данные собираются такими устройствами, как мобильные устройства , дешевые и многочисленные информационные устройства Интернета вещей , антенна ( дистанционное зондирование ), журналы программного обеспечения, камеры , микрофоны, радиочастотная идентификация. (RFID) считыватели и беспроводные сенсорные сети . Технологические возможности хранения информации на душу населения в мире примерно удваивались каждые 40 месяцев с 1980-х годов; по состоянию на 2012 год ежедневно генерируется 2,5 эксабайта (2,5 × 2 60 байтов) данных. Основываясь на прогнозе отчета IDC, прогнозировалось, что глобальный объем данных вырастет экспоненциально с 4,4 зеттабайт до 44 зеттабайт в период с 2013 по 2020 год. К 2025 году IDC прогнозирует, что объем данных будет составлять 163 зеттабайта. Один из вопросов для крупных предприятий - определить, кто должен владеть инициативами в области больших данных, влияющими на всю организацию.

Системы управления реляционными базами данных и настольные статистические программные пакеты, используемые для визуализации данных, часто сталкиваются с трудностями при обработке и анализе больших данных. Для обработки и анализа больших данных может потребоваться «массово-параллельное программное обеспечение, работающее на десятках, сотнях или даже тысячах серверов». То, что квалифицируется как «большие данные», зависит от возможностей тех, кто их анализирует, и их инструментов. Кроме того, расширение возможностей превращает большие данные в подвижную цель. «Для некоторых организаций, впервые столкнувшихся с сотнями гигабайт данных, может возникнуть необходимость пересмотреть варианты управления данными. Для других может потребоваться десятки или сотни терабайт, прежде чем размер данных станет существенным фактором».

Определение

Термин « большие данные » используется с 1990-х годов, и некоторые считают его популяризатором Джона Маши . Большие данные обычно включают в себя наборы данных с размерами вне способности широко используемых программных средств для захвата , викарий , управлять и обрабатывать данные в пределах терпимого затраченного время. Философия больших данных включает неструктурированные, полуструктурированные и структурированные данные, однако основное внимание уделяется неструктурированным данным. «Размер» больших данных - это постоянно меняющаяся цель; по состоянию на 2012 год - от нескольких десятков терабайт до многих зеттабайт данных. Для больших данных требуется набор техник и технологий с новыми формами интеграции, чтобы выявлять идеи из разнообразных, сложных и крупномасштабных наборов данных .

«Разнообразие», «правдивость» и другие различные «V» добавляются некоторыми организациями для его описания, и это пересмотр оспаривается некоторыми отраслевыми властями. «Против» больших данных часто называли «три против», «четыре против» и «пять против». Они отражают качества больших данных по объему, разнообразию, скорости, достоверности и ценности. Вариабельность часто включается в качестве дополнительного качества больших данных.

Определение 2018 года гласит: «Большие данные - это то, где необходимы инструменты параллельных вычислений для обработки данных», и отмечает: «Это представляет собой отчетливое и четко определенное изменение в используемой информатике с помощью теорий параллельного программирования, а также потерю некоторых гарантий и возможности, созданные реляционной моделью Кодда " .

В сравнительном исследовании больших наборов данных Китчин и Макардл обнаружили, что ни одна из обычно рассматриваемых характеристик больших данных не проявляется во всех проанализированных случаях. По этой причине другие исследования определили переопределение динамики власти в открытии знаний как определяющую черту. Вместо того, чтобы сосредотачиваться на внутренних характеристиках больших данных, эта альтернативная точка зрения продвигает реляционное понимание объекта, утверждая, что важен способ сбора, хранения, предоставления и анализа данных.

Большие данные против бизнес-аналитики

Растущая зрелость концепции более четко определяет разницу между «большими данными» и « бизнес-аналитикой »:

  • Бизнес-аналитика использует инструменты прикладной математики и описательную статистику с данными с высокой плотностью информации для измерения вещей, выявления тенденций и т. Д.
  • Большие данные используют математический анализ, оптимизацию, индуктивную статистику и концепции от идентификации нелинейных систем для вывода законов (регрессий, нелинейных отношений и причинно-следственных связей) из больших наборов данных с низкой плотностью информации для выявления взаимосвязей и зависимостей или для выполнения прогнозов результаты и поведение.

Характеристики

Показывает рост основных характеристик больших данных - объема, скорости и разнообразия.

Большие данные можно описать следующими характеристиками:

Объем
Количество сгенерированных и сохраненных данных. Размер данных определяет ценность и потенциальное понимание, а также то, можно ли их считать большими данными или нет. Размер больших данных обычно превышает терабайты и петабайты.
Разнообразие
Тип и характер данных. Ранние технологии, такие как СУБД, были способны эффективно и действенно обрабатывать структурированные данные. Однако изменение типа и характера от структурированных к полуструктурированным или неструктурированным бросило вызов существующим инструментам и технологиям. Технологии больших данных развивались с основной целью собирать, хранить и обрабатывать полуструктурированные и неструктурированные (разнообразные) данные, генерируемые с высокой скоростью (скорость) и огромными по размеру (объему). Позже эти инструменты и технологии были исследованы и использованы для обработки структурированных данных, но предпочтительнее для хранения. В конце концов, обработка структурированных данных по-прежнему оставалась необязательной, либо с использованием больших данных, либо с использованием традиционных СУБД. Это помогает в анализе данных с целью эффективного использования скрытой информации, полученной из данных, собранных через социальные сети, файлы журналов, датчики и т. Д. Большие данные извлекаются из текста, изображений, аудио, видео; плюс он восполняет недостающие части за счет слияния данных .
Скорость
Скорость, с которой данные генерируются и обрабатываются, чтобы соответствовать требованиям и задачам, стоящим на пути роста и развития. Большие данные часто доступны в режиме реального времени. По сравнению с небольшими данными , большие данные производятся более непрерывно. Два типа скорости, связанные с большими данными, - это частота генерации и частота обработки, записи и публикации.
Достоверность
Правдивость или надежность данных, которая относится к качеству данных и ценности данных. Большие данные должны быть не только большими по размеру, но и надежными, чтобы их анализ был ценным. Качество данных захваченных данных может сильно варьироваться, влияя на точный анализ.
Ценить
Ценность информации, которая может быть достигнута путем обработки и анализа больших наборов данных. Ценность также можно измерить путем оценки других качеств больших данных. Ценность также может представлять прибыльность информации, полученной в результате анализа больших данных.
Изменчивость
Характеристика меняющихся форматов, структуры или источников больших данных. Большие данные могут включать структурированные, неструктурированные или комбинации структурированных и неструктурированных данных. Анализ больших данных может включать необработанные данные из нескольких источников. Обработка необработанных данных может также включать преобразование неструктурированных данных в структурированные.

Другие возможные характеристики больших данных:

Исчерпывающий
Будет ли захвачена или записана вся система (т. Е. = Вся ) или нет. Большие данные могут включать или не включать все доступные данные из источников.
Мелкозернистый и уникально лексический
Соответственно, доля конкретных данных каждого элемента в каждом собранном элементе, и если элемент и его характеристики правильно проиндексированы или идентифицированы.
Реляционный
Если собранные данные содержат общие поля, которые позволят объединить или метаанализ различных наборов данных.
Экстенсиональный
Если новые поля в каждом элементе собранных данных могут быть легко добавлены или изменены.
Масштабируемость
Если размер системы хранения больших данных может быстро увеличиваться.

Архитектура

Репозитории больших данных существовали во многих формах, часто создаваемые корпорациями с особыми потребностями. Коммерческие поставщики исторически предлагали параллельные системы управления базами данных для больших данных, начиная с 1990-х годов. За много лет WinterCorp опубликовала самый крупный отчет по базе данных.

В 1984 году корпорация Teradata выпустила на рынок систему DBC 1012 с параллельной обработкой данных. Системы Teradata были первыми, кто в 1992 году сохранил и проанализировал 1 терабайт данных. В 1991 году объем жестких дисков составлял 2,5 ГБ, поэтому определение больших данных постоянно развивается в соответствии с законом Крайдера . Компания Teradata установила первую систему на основе РСУБД петабайтного класса в 2007 году. По состоянию на 2017 год установлено несколько десятков реляционных баз данных Teradata петабайтного класса, самая большая из которых превышает 50 ПБ. До 2008 года системы были на 100% структурированными реляционными данными. С тех пор Teradata добавила неструктурированные типы данных, включая XML , JSON и Avro.

В 2000 году компания Seisint Inc. (теперь LexisNexis Risk Solutions ) разработала распределенную платформу на основе C ++ для обработки данных и запросов, известную как платформа HPCC Systems . Эта система автоматически разделяет, распределяет, хранит и доставляет структурированные, частично структурированные и неструктурированные данные на несколько стандартных серверов. Пользователи могут писать конвейеры обработки данных и запросы на декларативном языке программирования потоков данных, называемом ECL. Аналитики данных, работающие в ECL, не обязаны заранее определять схемы данных и могут скорее сосредоточиться на конкретной проблеме, изменяя данные наилучшим образом по мере разработки решения. В 2004 году LexisNexis приобрела Seisint Inc. и их платформу высокоскоростной параллельной обработки и успешно использовала эту платформу для интеграции систем данных Choicepoint Inc., когда они приобрели эту компанию в 2008 году. В 2011 году платформа систем HPCC была открыта под Лицензия Apache v2.0.

ЦЕРН и другие физические эксперименты собирали большие наборы данных в течение многих десятилетий, обычно анализируемые с помощью высокопроизводительных вычислений, а не архитектур с уменьшением карты, обычно подразумеваемых текущим движением «больших данных».

В 2004 году Google опубликовал статью о процессе под названием MapReduce, в котором используется аналогичная архитектура. Концепция MapReduce предоставляет модель параллельной обработки, и была выпущена соответствующая реализация для обработки огромных объемов данных. С помощью MapReduce запросы разделяются и распределяются по параллельным узлам и обрабатываются параллельно (этап «сопоставления»). Затем результаты собираются и доставляются (шаг «уменьшить»). Фреймворк оказался очень успешным, поэтому другие захотели повторить алгоритм. Поэтому реализация инфраструктуры MapReduce была принята проектом Apache с открытым исходным кодом под названием « Hadoop ». Apache Spark был разработан в 2012 году в ответ на ограничения парадигмы MapReduce, поскольку он добавляет возможность настраивать множество операций (а не только сопоставление с последующим сокращением).

MIKE2.0 - это открытый подход к управлению информацией, который признает необходимость внесения изменений из-за последствий для больших данных, указанных в статье под названием «Предложение решений для больших данных». Методология обращается к обработке больших данных с точки зрения полезных перестановок источников данных, сложности взаимосвязей и сложности удаления (или изменения) отдельных записей.

Исследования 2012 года показали, что многоуровневая архитектура является одним из вариантов решения проблем, связанных с большими данными. Распределенная параллельная архитектура распределяет данные между несколькими серверами; Эти среды параллельного выполнения могут значительно повысить скорость обработки данных. Этот тип архитектуры вставляет данные в параллельную СУБД, которая реализует использование фреймворков MapReduce и Hadoop. Этот тип инфраструктуры стремится сделать вычислительную мощность прозрачной для конечного пользователя за счет использования внешнего сервера приложений.

Озеро данных позволяет организации сместить акцент с централизованного управления к общей модели реагировать на изменения динамики управления информацией. Это позволяет быстро разделить данные в озеро данных, тем самым сокращая накладные расходы.

Технологии

В отчете Глобального института McKinsey за 2011 год основные компоненты и экосистема больших данных описываются следующим образом:

Многомерные большие данные также могут быть представлены в виде кубов данных OLAP или, математически, тензоров . Системы баз данных с массивами предназначены для обеспечения хранения и поддержки запросов высокого уровня для этого типа данных. Дополнительные технологии, применяемые к большим данным, включают эффективные тензорные вычисления, такие как многолинейное подпространственное обучение , базы данных с массовой параллельной обработкой ( MPP ), приложения на основе поиска , интеллектуальный анализ данных , распределенные файловые системы , распределенный кеш (например, буфер пакетов и Memcached ), распределенные базы данных , облако и ГПЦ на основе инфраструктуры (приложения, хранение и вычислительные ресурсы), и Интернет. Несмотря на то, что было разработано множество подходов и технологий, по-прежнему сложно проводить машинное обучение с большими данными.

Некоторые реляционные базы данных MPP могут хранить петабайты данных и управлять ими. Неявная - это возможность загружать, отслеживать, создавать резервные копии и оптимизировать использование больших таблиц данных в СУБД .

DARPA «s топологический анализ данных Программа направлена на фундаментальную структуру массивных наборов данных и в 2008 году технология огласку с запуском компании под названием„Ayasdi“.

Практики процессов анализа больших данных, как правило, враждебно относятся к более медленному общему хранилищу, предпочитая хранилище с прямым подключением ( DAS ) в его различных формах, от твердотельного накопителя ( SSD ) до диска SATA большой емкости, скрытого внутри узлов параллельной обработки. Архитектура совместно используемого хранилища - сеть хранения данных (SAN) и хранилище, подключенное к сети (NAS) - воспринимается как относительно медленная, сложная и дорогая архитектура . Эти качества несовместимы с системами анализа больших данных, которые процветают за счет производительности системы, стандартной инфраструктуры и низкой стоимости.

Доставка информации в реальном времени или почти в реальном времени - одна из определяющих характеристик аналитики больших данных. Таким образом, по возможности избегают задержек. Данные в памяти с прямым подключением или на диске в порядке - данные в памяти или на диске на другом конце подключения FC SAN - нет. Стоимость SAN в масштабе, необходимом для аналитических приложений, намного выше, чем у других методов хранения.

Приложения

Автобус с большими данными SAP, припаркованный за пределами IDF13 .

Большие данные настолько увеличили спрос на специалистов по управлению информацией, что Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP и Dell потратили более 15 миллиардов долларов на софтверные компании, специализирующиеся на управлении данными и аналитике. В 2010 году эта отрасль стоила более 100 миллиардов долларов и росла почти на 10 процентов в год: примерно в два раза быстрее, чем бизнес программного обеспечения в целом.

Развитые страны все чаще используют технологии, требующие обработки больших объемов данных. В мире насчитывается 4,6 миллиарда абонентов мобильных телефонов, и от 1 до 2 миллиардов человек имеют доступ к Интернету. Между 1990 и 2005 годами более 1 миллиарда человек во всем мире вошли в средний класс, что означает, что больше людей стали более грамотными, что, в свою очередь, привело к росту информации. Эффективная способность мира для обмена информацией через телекоммуникационные сети составляла 281 петабайт в 1986 году, 471 петабайт в 1993 году, 2,2 эксабайта в 2000 году, 65 эксабайт в 2007 году, и, согласно прогнозам, к 2014 году объем интернет-трафика составит 667 эксабайт в год. одна треть хранимой в мире информации находится в форме буквенно-цифрового текста и данных неподвижных изображений, что является наиболее полезным форматом для большинства приложений с большими данными. Это также показывает потенциал еще неиспользованных данных (например, в форме видео- и аудиоконтента).

В то время как многие поставщики предлагают готовые продукты для больших данных, эксперты поощряют разработку собственных специализированных систем, если компания обладает достаточными техническими возможностями.

Правительство

Использование и внедрение больших данных в государственные процессы позволяет повысить эффективность с точки зрения затрат, производительности и инноваций, но не лишено недостатков. Анализ данных часто требует, чтобы несколько частей правительства (центрального и местного) работали в сотрудничестве и создавали новые инновационные процессы для достижения желаемого результата. Распространенной правительственной организацией, использующей большие данные, является Управление национальной безопасности ( АНБ ), которое постоянно отслеживает деятельность в Интернете в поисках потенциальных моделей подозрительной или незаконной деятельности, которые может уловить их система.

Служба регистрации актов гражданского состояния и естественного движения населения (CRVS) собирает все свидетельства о статусе от рождения до смерти. CRVS - это источник больших данных для правительств.

Международная разработка

Исследования по эффективному использованию информационных и коммуникационных технологий в целях развития (также известные как «ICT4D») показывают, что технологии больших данных могут внести важный вклад, но также представляют собой уникальные проблемы для международного развития . Достижения в области анализа больших данных открывают рентабельные возможности для улучшения процесса принятия решений в важнейших областях развития, таких как здравоохранение, занятость, экономическая производительность , преступность, безопасность, стихийные бедствия и управление ресурсами. Кроме того, данные, создаваемые пользователями, открывают новые возможности для передачи голоса неслыханным. Однако давние проблемы для развивающихся регионов, такие как неадекватная технологическая инфраструктура и нехватка экономических и человеческих ресурсов, усугубляют существующие проблемы с большими данными, такие как конфиденциальность, несовершенная методология и проблемы взаимодействия. Задача «больших данных для развития» в настоящее время эволюционирует в сторону применения этих данных с помощью машинного обучения, известного как «искусственный интеллект для развития» (AI4D).

Преимущества

Основным практическим применением больших данных в целях развития была «борьба с бедностью с помощью данных». В 2015 году Блюменсток и его коллеги оценили прогнозируемую бедность и богатство на основе метаданных мобильных телефонов, а в 2016 году Джин и его коллеги объединили спутниковые снимки и машинное обучение для прогнозирования бедности. Используя данные цифрового отслеживания для изучения рынка труда и цифровой экономики в Латинской Америке, Хилберт и его коллеги утверждают, что данные цифрового отслеживания имеют несколько преимуществ, таких как:

  • Тематический охват: включая области, которые ранее было трудно или невозможно измерить.
  • Географический охват: наши международные источники предоставили обширные и сопоставимые данные почти по всем странам, включая многие небольшие страны, которые обычно не включаются в международные реестры.
  • Уровень детализации: предоставление детализированных данных со многими взаимосвязанными переменными и новыми аспектами, такими как сетевые соединения.
  • Своевременность и временные ряды: графики могут быть построены в течение нескольких дней после сбора

Вызовы

В то же время работа с цифровыми данными трассировки вместо традиционных данных обследований не устраняет традиционных проблем, возникающих при работе в области международного количественного анализа. Приоритеты меняются, но основные обсуждения остаются прежними. Среди основных проблем:

  • Репрезентативность. В то время как традиционная статистика развития в основном касается репрезентативности случайных выборок обследований, цифровые данные никогда не являются случайной выборкой.
  • Обобщаемость. Хотя данные наблюдений всегда очень хорошо представляют этот источник, они представляют только то, что он представляет, и не более того. Хотя заманчиво делать обобщения от конкретных наблюдений за одной платформой к более широким параметрам, это часто очень обманчиво.
  • Гармонизация. Цифровые данные трассировки по-прежнему требуют международной гармонизации индикаторов. Это добавляет проблему так называемого «слияния данных», согласования различных источников.
  • Перегрузка данных. Аналитики и учреждения не привыкли эффективно работать с большим количеством переменных, что эффективно выполняется с помощью интерактивных информационных панелей. Практикующим специалистам по-прежнему не хватает стандартного рабочего процесса, который позволил бы исследователям, пользователям и политикам действовать эффективно и результативно.

Здравоохранение

Аналитика больших данных использовалась в здравоохранении, предоставляя персонализированную медицину и предписывающую аналитику, вмешательство в клинические риски и прогнозную аналитику, сокращение потерь и вариативности медицинской помощи, автоматизированную внешнюю и внутреннюю отчетность по данным пациентов, стандартизированные медицинские термины и реестры пациентов. Некоторые области улучшений более желательны, чем реализованы на самом деле. Уровень данных, генерируемых в системах здравоохранения, нетривиален. С появлением мобильного здравоохранения, электронного здравоохранения и носимых технологий объем данных будет продолжать расти. Сюда входят данные электронных медицинских карт, данные изображений, данные пациентов, данные датчиков и другие формы данных, которые трудно обрабатывать. В настоящее время существует еще большая потребность в таких средах, чтобы уделять больше внимания качеству данных и информации. «Большие данные очень часто означают« грязные данные », и доля неточностей в данных увеличивается с ростом объема данных». Осмотр человеком в масштабе больших данных невозможен, и службы здравоохранения остро нуждаются в интеллектуальных инструментах для контроля точности и достоверности, а также обработки пропущенной информации. Хотя обширная информация в области здравоохранения теперь представлена ​​в электронном виде, она подходит под зонтик больших данных, поскольку большая часть из них неструктурирована и сложна в использовании. Использование больших данных в здравоохранении создает серьезные этические проблемы, начиная от рисков для прав личности, конфиденциальности и автономии и заканчивая прозрачностью и доверием.

Большие данные в исследованиях в области здравоохранения особенно перспективны с точки зрения исследовательских биомедицинских исследований, поскольку анализ на основе данных может продвигаться вперед быстрее, чем исследования, основанные на гипотезах. Затем тенденции, наблюдаемые при анализе данных, могут быть проверены в традиционных последующих биологических исследованиях, основанных на гипотезах, и, в конечном итоге, в клинических исследованиях.

Связанная с этим область приложений, которая в значительной степени полагается на большие данные в области здравоохранения, - это компьютерная диагностика в медицине. Например, для мониторинга эпилепсии принято ежедневно создавать от 5 до 10 ГБ данных. Точно так же одно несжатое изображение томосинтеза груди в среднем содержит 450 МБ данных. Это лишь некоторые из многих примеров, когда компьютерная диагностика использует большие данные. По этой причине большие данные были признаны одной из семи ключевых проблем, которые необходимо преодолеть системам компьютерной диагностики, чтобы выйти на новый уровень производительности.

Образование

Исследование McKinsey Global Institute выявило нехватку 1,5 миллиона высококвалифицированных специалистов и менеджеров по работе с данными, а ряд университетов, включая Университет Теннесси и Калифорнийский университет в Беркли , создали магистерские программы для удовлетворения этого спроса. Частные учебные лагеря также разработали программы для удовлетворения этого спроса, включая бесплатные программы, такие как The Data Incubator, или платные программы, такие как General Assembly . В конкретной области маркетинга Ведель и Каннан подчеркивают одну из проблем, заключающуюся в том, что маркетинг имеет несколько поддоменов (например, реклама, продвижение по службе, разработка продуктов, брендинг), которые используют разные типы данных.

СМИ

Чтобы понять, как СМИ используют большие данные, сначала необходимо предоставить некоторый контекст в механизме, используемом для медиа-процесса. Ник Кулдри и Джозеф Туроу предположили, что специалисты в области СМИ и рекламы подходят к большим данным как к множеству действенных точек информации о миллионах людей. Похоже, что отрасль отходит от традиционного подхода к использованию определенных средств массовой информации, таких как газеты, журналы или телешоу, и вместо этого обращается к потребителям с помощью технологий, которые достигают целевой аудитории в оптимальное время в оптимальных местах. Конечная цель состоит в том, чтобы служить или передать сообщение или контент, который (с точки зрения статистики) соответствует мышлению потребителя. Например, издательские среды все чаще адаптируют сообщения (рекламные объявления) и контент (статьи) для обращения к потребителям, которые были получены исключительно посредством различных действий по интеллектуальному анализу данных .

  • Таргетинг на потребителей (для рекламы маркетологов)
  • Сбор данных
  • Журналистика данных : издатели и журналисты используют инструменты больших данных для предоставления уникальных и новаторских идей и инфографики .

Channel 4 , британский общественный телеканал, является лидером в области больших данных и анализа данных .

Страхование

Поставщики медицинского страхования собирают данные о социальных «детерминантах здоровья», таких как потребление продуктов питания и телевидения , семейное положение, размер одежды и покупательские привычки, на основе которых они делают прогнозы затрат на здоровье, чтобы выявлять проблемы со здоровьем у своих клиентов. Спорный вопрос, используются ли эти прогнозы в настоящее время для ценообразования.

Интернет вещей (IoT)

Большие данные и Интернет вещей работают вместе. Данные, извлеченные из устройств IoT, обеспечивают отображение взаимосвязи устройств. Такие сопоставления использовались медиаиндустрией, компаниями и правительствами для более точного нацеливания на свою аудиторию и повышения эффективности СМИ. Интернет вещей также все чаще используется как средство сбора сенсорных данных, и эти сенсорные данные используются в медицине, производстве и транспортировке.

Кевин Эштон , эксперт по цифровым инновациям, которому приписывают создание этого термина, определяет Интернет вещей в этой цитате: «Если бы у нас были компьютеры, которые знали бы все, что нужно знать о вещах - используя данные, которые они собирали без какой-либо нашей помощи, - мы мы сможем отслеживать и подсчитывать все, а также значительно сокращать отходы, потери и затраты. Мы будем знать, когда что-то необходимо заменить, отремонтировать или отозвать, и были ли они свежими или устаревшими ».

Информационные технологии

Особенно с 2015 года большие данные заняли видное место в бизнес-операциях как инструмент, помогающий сотрудникам работать более эффективно и оптимизировать сбор и распространение информационных технологий (ИТ). Использование больших данных для решения проблем ИТ и сбора данных на предприятии называется аналитикой ИТ-операций (ITOA). Применяя принципы больших данных к концепциям машинного интеллекта и глубоких вычислений, ИТ-отделы могут прогнозировать потенциальные проблемы и предотвращать их. Предприятия ITOA предлагают платформы для управления системами, которые объединяют разрозненные хранилища данных и генерируют аналитические данные на основе всей системы, а не отдельных участков данных.

Тематические исследования

Правительство

Китай

  • Платформа интегрированных совместных операций (IJOP, 一体化 联合 作战 平台) используется правительством для мониторинга населения, особенно уйгуров . Биометрические данные , в том числе образцы ДНК, собираются с помощью программы бесплатных медицинских обследований.
  • К 2020 году Китай планирует присвоить всем своим гражданам личную «социальную кредитоспособность», основанную на их поведении. Система социального кредитования , которая сейчас апробируется в ряде китайских городов, считается формой массового наблюдения, в которой используется технология анализа больших данных.

Индия

  • Анализ больших данных был опробован для того, чтобы BJP выиграла всеобщие выборы в Индии в 2014 году.
  • Правительство Индии использует многочисленные методы , чтобы выяснить , как индийский электорат реагирует на действия правительства, а также идеи для политики увеличения.

Израиль

  • Персонализированные методы лечения диабета могут быть созданы с помощью решения GlucoMe для работы с большими данными.

Объединенное Королевство

Примеры использования больших данных в государственных услугах:

  • Данные о лекарствах, отпускаемых по рецепту: связав происхождение, местонахождение и время каждого рецепта, исследовательское подразделение смогло продемонстрировать значительную задержку между выпуском любого конкретного лекарства и адаптацией Национального института здравоохранения и качества обслуживания в масштабах всей Великобритании. руководящие указания. Это говорит о том, что новым или самым современным лекарствам требуется некоторое время, чтобы проникнуть к пациенту в целом.
  • Объединение данных: местный орган власти объединил данные об услугах, таких как ротация дорожного покрытия, с услугами для людей из группы риска, такими как еда на колесах . Подключение данных позволило местным властям избежать задержек, связанных с погодными условиями.

Соединенные Штаты

  • В 2012 году администрация Обамы объявила об Инициативе по исследованиям и развитию больших данных, чтобы изучить, как большие данные могут быть использованы для решения важных проблем, с которыми сталкивается правительство. Инициатива состоит из 84 различных программ больших данных, распределенных по шести департаментам.
  • Анализ больших данных сыграл большую роль в успешной кампании по переизбранию Барака Обамы в 2012 году .
  • Федеральное правительство Соединенных Штатов имеет пять из десяти самых мощных суперкомпьютеров в мире.
  • Центр данных в Юте был построен Агентством национальной безопасности США . По завершении объект сможет обрабатывать большой объем информации, собранной АНБ через Интернет. Точный объем дискового пространства неизвестен, но более свежие источники утверждают, что он будет порядка нескольких эксабайт . Это вызвало проблемы с безопасностью в отношении анонимности собранных данных.

Розничная торговля

  • Walmart обрабатывает более 1 миллиона клиентских транзакций каждый час, которые импортируются в базы данных, которые, по оценкам, содержат более 2,5 петабайт (2560 терабайт) данных, что в 167 раз больше информации, содержащейся во всех книгах Библиотеки Конгресса США .
  • Windermere Real Estate использует информацию о местонахождении почти 100 миллионов водителей, чтобы помочь покупателям нового жилья определить типичное время в пути на работу и обратно в разное время дня.
  • Система обнаружения карт FICO защищает счета по всему миру.

Наука

  • В Большой Адронный Коллайдер эксперименты представляют около 150 миллионов датчиков доставки данных 40 миллионов раз в секунду. В секунду происходит около 600 миллионов столкновений. После фильтрации и отказа от записи более 99,99995% этих потоков происходит 1000 столкновений в секунду.
    • В результате, работая только с менее чем 0,001% данных потока сенсора, поток данных из всех четырех экспериментов LHC составляет 25 петабайт в год до репликации (по состоянию на 2012 год). После репликации это становится почти 200 петабайт.
    • Если бы все данные датчиков были записаны на LHC, с потоком данных было бы чрезвычайно сложно работать. Перед репликацией поток данных превысит 150 миллионов петабайт в год, или почти 500 эксабайт в день. Для сравнения: это эквивалентно 500 квинтиллионам (5 × 10 20 ) байтов в день, что почти в 200 раз больше, чем у всех других источников в мире, вместе взятых.
  • Кв.км Массив является радиотелескоп построен из тысяч антенн. Ожидается, что он будет введен в эксплуатацию к 2024 году. Ожидается, что в совокупности эти антенны будут собирать 14 эксабайт и хранить один петабайт в день. Он считается одним из самых амбициозных научных проектов, когда-либо предпринимавшихся.
  • Когда Sloan Digital Sky Survey (SDSS) начал собирать астрономические данные в 2000 году, за первые несколько недель он собрал больше, чем все данные, собранные ранее за всю историю астрономии. Продолжая работать со скоростью около 200 ГБ в сутки, SDSS накапливает более 140 терабайт информации. Когда в 2020 году появится Большой синоптический обзорный телескоп , преемник SDSS, его разработчики ожидают, что он будет получать такой объем данных каждые пять дней.
  • Первоначально на расшифровку генома человека потребовалось 10 лет; теперь это можно сделать менее чем за день. Секвенаторы ДНК разделили стоимость секвенирования на 10 000 за последние десять лет, что в 100 раз дешевле, чем снижение стоимости, предсказанное законом Мура .
  • НАСА Центр климата Simulation (NCCS) хранит 32 петабайт климатических наблюдений и моделирования на суперкомпьютерных кластеров Discover.
  • DNAStack от Google собирает и систематизирует образцы ДНК генетических данных со всего мира для выявления заболеваний и других медицинских дефектов. Эти быстрые и точные вычисления исключают любые «точки трения» или человеческие ошибки, которые мог сделать один из многочисленных экспертов в области науки и биологии, работающих с ДНК. DNAStack, часть Google Genomics, позволяет ученым использовать обширную выборку ресурсов с поискового сервера Google для мгновенного масштабирования социальных экспериментов, которые обычно занимают годы.
  • 23andme «s база ДНК содержит генетическую информацию о более чем 1 миллиона людей во всем мире. Компания изучает возможность продажи «анонимных агрегированных генетических данных» другим исследователям и фармацевтическим компаниям в исследовательских целях, если пациенты дадут свое согласие. Ахмад Харири, профессор психологии и нейробиологии в Университете Дьюка, который использует 23andMe в своих исследованиях с 2009 года, заявляет, что наиболее важным аспектом новой услуги компании является то, что она делает генетические исследования доступными и относительно дешевыми для ученых. Исследование, которое выявило 15 сайтов генома, связанных с депрессией, в базе данных 23andMe, привело к резкому увеличению запросов на доступ к репозиторию, поскольку 23andMe отправил почти 20 запросов на доступ к данным о депрессии в течение двух недель после публикации статьи.
  • Вычислительная гидродинамика ( CFD ) и исследования гидродинамической турбулентности генерируют массивные наборы данных. Базы данных турбулентности Джонса Хопкинса ( JHTDB ) содержат более 350 терабайт пространственно-временных полей из прямого численного моделирования различных турбулентных потоков. Такие данные было трудно разделить с использованием традиционных методов, таких как загрузка плоских выходных файлов моделирования. Доступ к данным в JHTDB можно получить с помощью «виртуальных датчиков» с различными режимами доступа, начиная от прямых запросов в веб-браузере, доступа через программы Matlab, Python, Fortran и C, выполняемые на клиентских платформах, до вырезанных служб для загрузки необработанных данных. Данные использованы в более чем 150 научных публикациях.

Спортивный

Большие данные можно использовать для улучшения тренировок и понимания конкурентов с помощью спортивных датчиков. Также возможно предсказать победителей в матче с помощью аналитики больших данных. Также можно было предсказать будущую производительность игроков. Таким образом, ценность и зарплата игроков определяются данными, собранными в течение сезона.

В гонках Формулы-1 гоночные машины с сотнями датчиков генерируют терабайты данных. Эти датчики собирают данные от давления в шинах до эффективности сжигания топлива. На основе полученных данных инженеры и аналитики данных решают, следует ли вносить коррективы, чтобы выиграть гонку. Кроме того, используя большие данные, гоночные команды пытаются заранее предсказать время, когда они финишируют в гонке, на основе моделирования с использованием данных, собранных в течение сезона.

Технология

  • eBay.com использует два хранилища данных на 7,5 петабайт и 40 Пбайт, а также кластер Hadoop на 40 Пбайт для поиска, рекомендаций потребителям и мерчендайзинга.
  • Amazon.com ежедневно обрабатывает миллионы внутренних операций, а также запросы от более чем полумиллиона сторонних продавцов. Основная технология, обеспечивающая работу Amazon, основана на Linux, и по состоянию на 2005 год у них были три крупнейших в мире базы данных Linux с емкостью 7,8 ТБ, 18,5 ТБ и 24,7 ТБ.
  • Facebook обрабатывает 50 миллиардов фотографий из своей пользовательской базы. По состоянию на июнь 2017 года количество активных пользователей Facebook достигло 2 миллиардов в месяц .
  • По состоянию на август 2012 года Google обрабатывал около 100 миллиардов запросов в месяц.

COVID-19

Во время пандемии COVID-19 большие данные использовались как способ минимизировать воздействие болезни. Важные применения больших данных включают минимизацию распространения вируса, выявление случаев заболевания и разработку методов лечения.

Правительства использовали большие данные для отслеживания зараженных людей, чтобы свести к минимуму распространение. Среди первых последователей - Китай, Тайвань, Южная Корея и Израиль.

Исследовательская деятельность

Зашифрованный поиск и формирование кластеров в больших данных были продемонстрированы в марте 2014 года в Американском обществе инженерного образования. Гаутам Сивах, участвовавший в решении проблем больших данных в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, и Амир Эсмаилпур из исследовательской группы UNH исследовали ключевые особенности больших данных, таких как формирование кластеров и их взаимосвязь. Они сосредоточились на безопасности больших данных и ориентации термина на присутствие различных типов данных в зашифрованной форме в облачном интерфейсе, предоставив необработанные определения и примеры в реальном времени в рамках технологии. Более того, они предложили подход к идентификации техники кодирования для продвижения к ускоренному поиску по зашифрованному тексту, ведущему к повышению безопасности в больших данных.

В марте 2012 года Белый дом объявил о национальной «Инициативе по большим данным», в которой шесть федеральных департаментов и агентств вложили более 200 миллионов долларов в исследовательские проекты по большим данным.

Инициатива включала грант Национального научного фонда «Экспедиции в области вычислений» в размере 10 миллионов долларов на пять лет для AMPLab Калифорнийского университета в Беркли. AMPLab также получил средства от DARPA и более десятка промышленных спонсоров и использует большие данные для решения широкого круга проблем, от прогнозирования пробок на дорогах до борьбы с раком.

Инициатива Белого дома по большим данным также включала обязательство Министерства энергетики выделить 25 миллионов долларов на финансирование в течение пяти лет для создания Института масштабируемого управления, анализа и визуализации данных (SDAV), возглавляемого Национальной лабораторией Лоуренса Беркли Министерства энергетики . Институт SDAV призван объединить опыт шести национальных лабораторий и семи университетов для разработки новых инструментов, которые помогут ученым управлять и визуализировать данные на суперкомпьютерах отдела.

В мае 2012 года штат Массачусетс в США объявил об инициативе Massachusetts Big Data Initiative, которая предоставляет финансирование от правительства штата и частных компаний различным исследовательским учреждениям. В Массачусетском технологическом институте находится Научно-технологический центр больших данных Intel в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института , объединяющий государственные, корпоративные и институциональные средства финансирования и исследования.

Европейская комиссия финансирует двухлетний публично-частный форум по большим данным в рамках своей Седьмой рамочной программы для вовлечения компаний, ученых и других заинтересованных сторон в обсуждение вопросов, связанных с большими данными. Проект направлен на определение стратегии с точки зрения исследований и инноваций, которая будет определять вспомогательные действия Европейской комиссии по успешному внедрению экономики больших данных. Результаты этого проекта будут использованы в качестве исходных данных для их следующей рамочной программы Horizon 2020 .

В марте 2014 года британское правительство объявило об основании Института Алана Тьюринга , названного в честь пионера компьютеров и взломщика кодов, который сосредоточится на новых способах сбора и анализа больших наборов данных.

В День вдохновения канадского опыта открытых данных (CODE) кампуса Университета Ватерлоо в Стратфорде участники продемонстрировали, как использование визуализации данных может повысить понимание и привлекательность наборов больших данных и рассказать их историю всему миру.

Вычислительные социальные науки  - любой может использовать интерфейсы прикладного программирования (API), предоставляемые держателями больших данных, такими как Google и Twitter, для проведения исследований в области социальных и поведенческих наук. Часто эти API предоставляются бесплатно. Тобиас Прейс и др. использовали данные Google Trends, чтобы продемонстрировать, что пользователи Интернета из стран с более высоким валовым внутренним продуктом (ВВП) на душу населения с большей вероятностью будут искать информацию о будущем, чем информацию о прошлом. Результаты показывают, что между поведением в Интернете и реальными экономическими показателями может быть связь. Авторы исследования изучили журналы запросов Google, составленные по соотношению объема поисков за предстоящий год (2011 год) к объему поисков за предыдущий год (2009 год), что они называют « индексом ориентации на будущее ». Они сравнили индекс ориентации на будущее с ВВП на душу населения в каждой стране и обнаружили сильную тенденцию к увеличению ВВП в странах, где пользователи Google больше интересуются будущим.

Тобиас Прейс и его коллеги Хелен Сюзанна Моат и Х. Юджин Стэнли представили метод определения онлайн-предвестников движений фондового рынка, используя торговые стратегии, основанные на данных об объеме поиска, предоставленных Google Trends. Их анализ объема поиска в Google по 98 терминам различной финансовой релевантности, опубликованный в Scientific Reports , предполагает, что увеличение объема поиска по финансово релевантным поисковым запросам, как правило, предшествует большим потерям на финансовых рынках.

Наборы больших данных сопряжены с алгоритмическими проблемами, которых раньше не существовало. Следовательно, некоторые видят необходимость коренным образом изменить способы обработки.

Семинары по алгоритмам для современных массивов данных (MMDS) собирают компьютерных ученых, статистиков, математиков и специалистов по анализу данных для обсуждения алгоритмических проблем, связанных с большими данными. Что касается больших данных, такие понятия величины относительны. Как утверждается, «если прошлое может служить ориентиром, то сегодняшние большие данные, скорее всего, не будут считаться таковыми в ближайшем будущем».

Выборка больших данных

Исследовательский вопрос, который задают о больших наборах данных, заключается в том, нужно ли просматривать полные данные, чтобы сделать определенные выводы о свойствах данных, или достаточно ли хороша выборка. Само название «большие данные» содержит термин, связанный с размером, и это важная характеристика больших данных. Но выборка позволяет выбрать правильные точки данных из более крупного набора данных для оценки характеристик всей совокупности. При производстве различные типы сенсорных данных, такие как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны через короткие промежутки времени. Для прогнозирования времени простоя может не потребоваться просмотр всех данных, но выборки может быть достаточно. Большие данные можно разбить по различным категориям точек данных, таким как демографические, психографические, поведенческие и транзакционные данные. Имея большие наборы точек данных, маркетологи могут создавать и использовать более индивидуализированные сегменты потребителей для более стратегического таргетинга.

Была проделана некоторая работа над алгоритмами выборки для больших данных. Разработана теоретическая формулировка выборки данных Twitter.

Критика

Критика парадигмы больших данных бывает двух видов: те, которые ставят под сомнение последствия самого подхода, и те, которые ставят под сомнение то, как это делается в настоящее время. Один из подходов к этой критике - область критических исследований данных .

Критика парадигмы больших данных

«Ключевой проблемой является то, что мы мало знаем о лежащих в основе эмпирических микропроцессах, которые приводят к появлению [таких] типичных сетевых характеристик больших данных». В своей критике Снайдерс, Мацат и Рейпс указывают на то, что часто делаются очень сильные предположения о математических свойствах, которые могут вообще не отражать то, что на самом деле происходит на уровне микропроцессов. Марк Грэм подверг критике утверждение Криса Андерсона о том, что большие данные означают конец теории: особое внимание уделяется идее о том, что большие данные всегда должны быть контекстуализированы в их социальном, экономическом и политическом контексте. Даже несмотря на то, что компании вкладывают восьми- и девятизначные суммы, чтобы получить представление об информации, поступающей от поставщиков и клиентов, менее 40% сотрудников обладают достаточно зрелыми процессами и навыками для этого. Согласно статье в Harvard Business Review, чтобы преодолеть этот дефицит понимания, большие данные, независимо от того, насколько они всеобъемлющи или хорошо проанализированы, должны дополняться «серьезным суждением» .

Во многом в том же направлении было указано, что решения, основанные на анализе больших данных, неизбежно «принимаются миром, как это было в прошлом или, в лучшем случае, как оно есть сейчас». Основываясь на большом количестве данных о прошлом опыте, алгоритмы могут предсказывать будущее развитие, если будущее похоже на прошлое. Если динамика системы будущего изменяется (если это не стационарный процесс ), прошлое мало что может сказать о будущем. Чтобы делать прогнозы в изменяющейся окружающей среде, необходимо иметь полное представление о динамике системы, что требует теории. В ответ на эту критику Алемани Оливер и Вейр предлагают использовать «абдуктивное рассуждение в качестве первого шага в процессе исследования, чтобы привнести контекст в цифровые следы потребителей и вызвать появление новых теорий». Кроме того, было предложено объединить подходы к большим данным с компьютерным моделированием, таким как агентные модели и сложные системы . Агентные модели становятся все лучше в прогнозировании результатов социальных сложностей даже неизвестных будущих сценариев с помощью компьютерного моделирования, основанного на наборе взаимозависимых алгоритмов. Наконец, использование многомерных методов, которые исследуют скрытую структуру данных, таких как факторный анализ и кластерный анализ , оказалось полезным в качестве аналитических подходов, которые выходят далеко за рамки двумерных подходов (кросс-таблиц), обычно используемых с небольшими данными. наборы.

В области здравоохранения и биологии традиционные научные подходы основаны на экспериментировании. Для этих подходов ограничивающим фактором являются соответствующие данные, которые могут подтвердить или опровергнуть исходную гипотезу. В настоящее время в бионауках принят новый постулат: информация, предоставляемая данными в огромных объемах ( омикс ) без предварительной гипотезы, дополняет, а иногда и необходима для традиционных подходов, основанных на экспериментах. В массовых подходах ограничивающим фактором является формулировка соответствующей гипотезы для объяснения данных. Логика поиска меняется на противоположную, и необходимо учитывать пределы индукции («Слава науки и философский скандал», CD Broad , 1926).

Защитники конфиденциальности обеспокоены угрозой конфиденциальности , связанной с увеличением объема хранения и интеграции личной информации ; группы экспертов выпустили различные рекомендации по политике, чтобы привести практику в соответствие с ожиданиями конфиденциальности. В некоторых случаях неправомерное использование больших данных средствами массовой информации, компаниями и даже правительством привело к утрате доверия почти ко всем фундаментальным институтам, поддерживающим общество.

Найеф Аль-Родхан утверждает, что потребуется новый вид общественного договора для защиты индивидуальных свобод в контексте больших данных и гигантских корпораций, владеющих огромными объемами информации, и что использование больших данных должно контролироваться и лучше регулироваться на уровне национальный и международный уровни. Барокас и Ниссенбаум утверждают, что одним из способов защиты отдельных пользователей является информирование о типах собираемой информации, о том, кому она передается, при каких ограничениях и для каких целей.

Критика модели "V"

V-образная модель больших данных вызывает беспокойство, поскольку она сосредоточена вокруг вычислительной масштабируемости и не имеет потерь в отношении восприимчивости и понятности информации. Это привело к созданию концепции когнитивных больших данных , которая характеризует приложения с большими данными в соответствии с:

  • Полнота данных: понимание неочевидного из данных
  • Корреляция данных, причинно-следственная связь и предсказуемость: причинно-следственная связь как несущественное требование для достижения предсказуемости
  • Объяснимость и интерпретируемость: люди хотят понять и принять то, что они понимают, в то время как алгоритмы с этим не справляются.
  • Уровень автоматического принятия решений: алгоритмы, поддерживающие автоматическое принятие решений и алгоритмическое самообучение.

Критика новизны

Большие наборы данных анализировались вычислительными машинами на протяжении более века, в том числе аналитика переписи населения США, выполняемая перфокарточными машинами IBM, которые вычисляли статистику, включая средние и дисперсии населения по всему континенту. В последние десятилетия в результате научных экспериментов, таких как ЦЕРН, были получены данные в масштабах, аналогичных нынешним коммерческим «большим данным». Однако научные эксперименты, как правило, анализируют свои данные с использованием специализированных специально созданных высокопроизводительных вычислительных (суперкомпьютерных) кластеров и сетей, а не облаков дешевых обычных компьютеров, как в нынешней коммерческой волне, что подразумевает различия как в культуре, так и в технологиях. куча.

Критика выполнения больших данных

Ульф-Дитрих Рейпс и Уве Мацат писали в 2014 году, что большие данные стали «модой» в научных исследованиях. Исследователь Дана Бойд выразила обеспокоенность по поводу использования больших данных в науке, пренебрегая такими принципами, как выбор репрезентативной выборки из- за чрезмерной озабоченности обработкой огромных объемов данных. Такой подход может привести к результатам, которые тем или иным образом будут иметь предвзятость . Интеграция разнородных ресурсов данных - одни из которых можно рассматривать как большие данные, а другие нет - представляет собой огромные логистические, а также аналитические проблемы, но многие исследователи утверждают, что такая интеграция, вероятно, представляет собой наиболее многообещающие новые рубежи в науке. В провокационной статье «Критические вопросы для больших данных» авторы называют большие данные частью мифологии : «большие наборы данных предлагают более высокий уровень интеллекта и знаний [...] с аурой правды, объективности и точности. ". Пользователи больших данных часто «теряются в огромном количестве цифр», а «работа с большими данными по-прежнему является субъективной, и то, что они определяют количественно, не обязательно имеет более точное утверждение об объективной истине». Последние разработки в области BI, такие как про-активную отчетность особенно целевые улучшения в удобстве больших объемов данных, с помощью автоматизированных фильтрации из не-полезных данных и корреляций . Большие структуры полны ложных корреляций либо из-за не причинных совпадений ( закон действительно больших чисел ), либо исключительно из-за природы большой случайности ( теория Рамсея ), либо из -за наличия невключенных факторов, поэтому первые экспериментаторы надеялись создать большие базы данных Цифры "говорят сами за себя" и революционизируют научный метод, ставится под сомнение.

Анализ больших данных часто бывает поверхностным по сравнению с анализом небольших наборов данных. Во многих проектах с большими данными не происходит анализа больших данных, но проблема заключается в извлечении, преобразовании, загрузке части предварительной обработки данных.

Большие данные - это модное слово и «расплывчатый термин», но в то же время «навязчивая идея» предпринимателей, консультантов, ученых и средств массовой информации. Витрины больших данных, такие как Google Flu Trends, в последние годы не давали хороших прогнозов , поскольку количество вспышек гриппа было завышено в два раза. Точно так же награды Академии и прогнозы на выборах, основанные исключительно на Twitter, чаще не соответствовали цели. Большие данные часто создают те же проблемы, что и небольшие данные; добавление дополнительных данных не решает проблемы смещения, но может подчеркнуть другие проблемы. В частности, такие источники данных, как Twitter, не являются репрезентативными для населения в целом, и результаты, полученные из таких источников, могут затем привести к неверным выводам. Google Translate , основанный на статистическом анализе текста с большими данными, хорошо справляется с переводом веб-страниц. Однако результаты в специализированных областях могут быть существенно искажены. С другой стороны, большие данные могут также создавать новые проблемы, такие как проблема множественных сравнений : одновременное тестирование большого набора гипотез может привести к множеству ложных результатов, которые по ошибке кажутся значительными. Иоаннидис утверждал, что «большинство опубликованных результатов исследований ложны» по существу из-за одного и того же эффекта: когда многие научные группы и исследователи проводят множество экспериментов (т. Е. Обрабатывают большой объем научных данных, хотя и не с помощью технологии больших данных), вероятность «Значимый» результат, являющийся ложным, быстро растет, тем более, когда публикуются только положительные результаты. Кроме того, результаты аналитики больших данных настолько хороши, насколько хороша модель, на которой они основаны. В одном примере, большие данные принимали участие в попытке предсказать результаты президентских выборов в США в 2016 году с разной степенью успеха.

Критика контроля и наблюдения за большими данными

Большие данные использовались в полицейской деятельности и надзоре такими учреждениями, как правоохранительные органы и корпорации . Из-за того, что слежка на основе данных менее заметна по сравнению с традиционными методами контроля, возражения против контроля за большими данными возникают с меньшей вероятностью. Согласно книге Сары Брейн « Наблюдение за большими данными: пример полицейской деятельности» , полицейская работа с большими данными может воспроизводить существующее социальное неравенство тремя способами:

  • Повышение надзора за подозреваемыми преступниками с использованием обоснованного математического и, следовательно, непредвзятого алгоритма
  • Увеличение охвата и числа лиц, подлежащих отслеживанию со стороны правоохранительных органов, и усиление существующей чрезмерной расовой представленности в системе уголовного правосудия
  • Поощрение членов общества к отказу от взаимодействия с учреждениями, которое могло бы создать цифровой след, тем самым создавая препятствия для социальной интеграции

Если эти потенциальные проблемы не будут исправлены или отрегулированы, эффекты контроля над большими данными могут и дальше формировать общественные иерархии. Брейн также отмечает, что сознательное использование контроля над большими данными может предотвратить превращение предубеждений на индивидуальном уровне в институциональные.

В популярной культуре

Книги

  • Moneyball - это научно-популярная книга, в которой рассказывается, как команда Oakland Athletics использовала статистический анализ, чтобы превзойти команды с большим бюджетом. В 2011 году на экраны вышла экранизация с Брэдом Питтом в главной роли.

Фильм

  • В Captain America: The Winter Soldier компания HYDRA (замаскированная под SHIELD ) разрабатывает вертолетоносцы, которые используют данные для определения и устранения угроз по всему миру.
  • В The Dark Knight , Бэтмен использует сонар устройство , которое может шпионить все Готэм - Сити . Данные собираются с мобильных телефонов жителей города.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки