К категории Большие данные (Big Data) относится информация, которую уже невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиа и случайные объекты. Некоторые эксперты считают, что для работы с ними на смену традиционным монолитным системам пришли новые массивно-параллельные решения.

Блог tadviser.ru


Что такое большие данные?

Насколько велика разница между бизнес-аналитикой и большими данными?

Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Мэтт Слокум из O’Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

  • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
  • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
  • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Согласно опубликованной компанией Oracle белой книге «Информационная архитектура Oracle: руководство архитектора по большим данным» (Oracle Information Architecture: An Architect’s Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов «машинного обучения«, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

Источники_для_Больших_Данных

Big Data≠Data Science

Big Data – это:

  • ETL\ELT
  • Технологии хранения больших объемов структурированных и не структурированных данных
  • Технологии обработки таких данных
  • Управление качеством данных
  • Технологии предоставления данных потребителю

Data Science – это:

  • Распознавание видео
  • Распознавание текстов
  • Распознавание речи
  • Построение рекомендательных моделей
  • Сегментация
  • Кластеризация и т.д.

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.

Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.

Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.

Crowdsourcing. Методика сбора данных из большого количества источников.

Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms. В этой методике возможные решения представляют в виде «хромосом», которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning. Направление в информатике (исторически за ним закрепилось название «искусственный интеллект«), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.

Визуализация. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.

Аналитический инструментарий

На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:

  • 1010data;
  • Apache Chukwa;
  • Apache Hadoop;
  • Apache Hive;
  • Apache Pig!;
  • Jaspersoft;
  • LexisNexis Risk Solutions HPCC Systems;
  • MapReduce;
  • Revolution Analytics (на базе языка R для матстатистики).

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций[2]. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Рынки решений для управления большими данными

Платформы больших данных (BDP, Big Data Platform) как средство борьбы с цифровым хордингом

Возможность анализировать большие данные, в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно «синдромом Плюшкина». По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации (подробнее).

Big data Landscape — Основные поставщики

Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

  • Amazon
  • Dell
  • eBay
  • EMC
  • Facebook
  • Fujitsu
  • Google
  • HDS (Hitachi Data Systems Corporation) Хитачи Вантара
  • HP
  • IBM
  • LinkedIn
  • Microsoft
  • NetApp
  • Oracle
  • SAP
  • SAS
  • SGI (Silicon Graphics Inc)
  • Teradata
  • VMware
  • Yahoo

На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.

  • Acunu
  • Apigee
  • Aspera
  • Aster Data (поглотила Teradata)
  • Cloudera
  • Couchbase
  • Datameer
  • DataStax
  • Factual
  • GoodData
  • Greenplum (поглотила ЕМС)
  • Hortonworks (имеет общие корни с Yahoo)
  • MapR Technologies
  • Metaweb Technologies (поглотила Google)
  • Netezza (поглотила IBM)
  • nPario
  • Palantir Technologies
  • ParAccel
  • ParStream
  • SenSage
  • Socrata
  • Splunk
  • Sybase (поглотила SAP)
  • TellApart
  • Vertica (поглотила НР)

История развития

1970-е: Эпоха мейнфреймов — появление концепции больших данных

Сама по себе концепция «больших данных» возникла ещё во времена мэйнфреймов и связанных с ними научных компьютерных вычислений[15]. Как известно, наукоемкие вычисление всегда отличались сложностью и обычно неразрывно связаны с необходимостью обработки больших объемов информации.

Ссылки

  1. Как анализировать большие данные
  2. Большие планы на «большие данные»
  3. Double-Digit Growth Forecast for the Worldwide Big Data and Business Analytics Market Through 2020 Led by Banking and Manufacturing Investments, According to IDC
  4. Интернет вещей затмил большие данные
  5. США: Белый дом опубликовал отчет о больших данных и дифференциальном ценообразовании
  6. Ten Key Take-Aways From the White House Big Data Report
  7. FTC Public Workshop On Big-Data Discrimination: Assessing the Current Environment
  8. 92% руководителей довольны проектами больших данных
  9. Gartner Survey Finds 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So
  10. Gartner Says Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support Big Data By 2015
  11. Managing Big Data: Six Operational Challenges
  12. Gartner Says Solving ‘Big Data’ Challenge Involves More Than Just Managing Volumes of Data
  13. Making the Most of Big Data
  14. Большие Данные — новая теория и практика
  15. 2012-й: «облачный» год для «больших данных»