Источники больших данных

Источники больших данных

Не правда ли, было бы здорово получить на мобильный телефон сообщение о скидке на обед в ресторане, мимо которого вы проезжаете?

Представьте, что вы можете быстро найти игроков онлайн-игры, чей стиль игры соответствует вашему, потому что игра может сообщить вам о том, кто они. Хотели бы вы снизить тариф на страхование автомобиля? Все это возможно благодаря большим данным.

Ценность источников больших данных

В главе 2 шла речь о веб-данных, которые представляют собой наиболее широко используемый и признанный источник больших данных. Однако существует множество других источников больших данных, и все они имеют собственные области применения. Далеко не все из них хорошо известны.

В этой главе мы подробно рассмотрим еще девять источников больших данных и способы их использования с целью предоставить вводную информацию о том, что собой представляет каждый из них. Затем рассмотрим некоторые способы их применения и значение, которое каждый источник данных представляет для бизнеса.

В главах 2 и 3 вы не найдете списка лучших источников, поскольку никто не возьмет на себя смелость утверждать, что именно эти источники больших данных наиболее важны. Порядок, в котором они перечислены, также не определяет их ценности. Задача в том, чтобы читатель узнал о доступных типах больших данных, а также о том, какие аналитические методы эти данные позволяют применять. Каждому читателю следует выбрать для себя по крайней мере некоторые из них.

Одна из наметившихся тенденций показывает, как одни и те же базовые технологии способны привести к появлению нескольких источников больших данных в различных отраслях. Кроме того, различные отрасли могут использовать одни и те же источники больших данных. Применение больших данных не сводится к одному способу. Их возникновение будет иметь долгосрочные последствия.

Речь пойдет о следующих источниках больших данных:

  • Автострахование: значение телематических данных.
  • Разные отрасли: значение текстовых данных.
  • Разные отрасли: значение данных о времени и местоположении.
  • Розничная торговля и производство: значение данных радиочастотной идентификации (RFID).
  • Коммунальные предприятия: значение данных, генерируемых интеллектуальными сетями.
  • Игровая индустрия: значение данных отслеживания фишек.
  • Промышленные двигатели и оборудование: значение данных, полученных от датчиков.
  • Видеоигры: значение телеметрических данных.
  • Телекоммуникации и другие отрасли: значение данных, полученных из социальных сетей.

Автострахование: значение телематических данных

В сфере автострахования телематике стали уделять серьезное внимание. Телематика предполагает помещение в машину датчика, или «черного ящика», для сбора информации о том, что происходит с автомобилем. В зависимости от конфигурации это устройство отслеживает любое количество показателей, например скорость, пройденное расстояние или факт резкого торможения.

Телематические данные позволяют страховым компаниям лучше оценить уровни риска клиента и более точно выбрать страховой тариф. Если не принимать в расчет проблемы конфиденциальности и представить крайний случай применения таких данных, то телематическое устройство может отследить, куда и когда ездил автомобиль, с какой скоростью он двигался и какие из его функций использовались.

Телематика позволяет снизить страховые тарифы для большинства водителей и увеличить прибыль страховых компаний. Как эти данные могут одновременно понизить тарифы и увеличить прибыль? Дело в том, что страховщики назначают размер страховых взносов исходя из оценки рисков. Использование традиционных методов оценки риска на основе демографических данных и персональной истории дорожных происшествий обеспечивает только общую картину. Особенно трудно охарактеризовать водителей, не попадавших в ДТП.

Страховые компании должны исходить из худшего сценария, поэтому они распределяют клиентов по группам с разной степенью риска, а затем принимают в расчет самый высокий уровень риска из присущих конкретной группе. Чем больше подробностей известно страховым компаниям о клиентах и их рисках, тем уже будет диапазон исков и, соответственно, тем в меньшей степени наихудший сценарий повлияет на повышение тарифа. Вот так одновременно тарифы могут снижаться, а прибыль компании повышаться. Страховщики могут точнее оценивать риски и уменьшить изменчивость прогнозируемых выплат.

Существуют страховые компании, которые используют телематические данные для страхования клиентов по всему миру, и число таких компаний растет. Ранние версии программ собирают минимальное количество информации об автомобилях. К примеру, они не отслеживают все места, в которых побывала машина. Эти программы фиксируют пройденное автомобилем расстояние, в какое время суток он находится в дороге, имело ли место превышение скорости и часто ли происходило резкое торможение. Это базовые данные, не создающие угрозу конфиденциальности. Поскольку приватные персональные данные не собираются, эта технология может получить более широкое распространение. Те же самые принципы применимы и в сфере коммерческой грузоперевозки. Установить тарифы на страхование грузовиков гораздо проще, если страховщик обладает более конкретными данными об их использовании.

Сначала телематические данные будут использоваться в качестве инструмента, обеспечивающего более эффективное страхование автомобилей и грузовиков. Со временем телематические устройства могут появиться в большом количестве других транспортных средств, что приведет к появлению новых способов использования телематических данных. Уже сегодня в автомобилях появляются бортовые компьютеры, однако телематические устройства могут вывести такие системы на совершенно новый уровень. Существуют очень интересные методы использования телематических данных. Рассмотрим некоторые из них.

Использование телематических данных

Распространение телематических данных сделает возможным применение фантастических аналитических методов. Представьте, что в миллионах или в десятках миллионов автомобилей в вашей стране находятся телематические устройства. Сторонняя исследовательская фирма получает у клиентов разрешение на сбор очень подробных анонимных телематических данных. В отличие от ограниченных данных, собранных для целей страхования, информация в этом примере включает поминутные или посекундные сведения об изменении скорости, местоположения, направления и т. д.

Этот поток данных будет предоставлять информацию о тысячах автомобилей, стоящих в любой пробке в любой день. Исследователи будут знать, насколько быстро движется каждый автомобиль. Они поймут, где началось движение, где оно закончилось и сколько времени длилось. Это удивительная детальная картина транспортного потока. Представьте себе последствия в сфере изучения пробок и планирования дорожной системы!

Выходите за рамки задуманного

Богатство возможностей телематики являет собой пример использования больших данных таким способом, который не предусматривался изначально. Часто наиболее эффективные способы применения того или иного источника данных кардинально отличаются от задуманных. Постарайтесь рассмотреть альтернативные методы использования каждого источника больших данных, с которым вы сталкиваетесь.

Как только исследователи получат доступ к тысячам автомобилей в каждый час пик, каждый день, в каждом городе они смогут досконально разобраться в причинах возникновения пробок и их последствиях. Они ответят на такие вопросы:

Какое влияние на дорожное движение оказывают шины?

  • Что произойдет, если левый ряд будет заблокирован?
  • Каковы последствия сбоя синхронизации работы светофоров?
  • Какие из перекрестков регулируются неэффективно, даже если они регулируются так, как было задумано?
  • Как быстро пробка на одной полосе распространяется на другие полосы?

Сегодня ответить на эти вопросы позволяет только целенаправленное и дорогостоящее тестирование. Можно поставить на конкретный участок дороги человека, который будет фиксировать нужную информацию. Или установить датчики для подсчета проезжающих мимо автомобилей. Или поставить видеокамеру. Однако высокие расходы, связанные с использованием этих методов, ограничивают область их применения.

Упомянутые телематические данные — мечта инженера транспортного планирования. Если телематические устройства получат распространение, то можно будет изучить любой населенный пункт, достаточно многочисленный для того, чтобы на дорогах образовывались пробки. Изменения дорог и систем управления, а также планов их создания дадут огромные преимущества всем. Телематика изначально задумывалась как механизм, облегчающий процесс определения страховых тарифов. Однако она может кардинально изменить управление системами автомагистралей и улучшить нашу жизнь, уменьшив уровень стресса, который мы испытываем, простаивая в пробках.

Разные отрасли: значение текстовых данных

Текст — один из самых мощных и широко используемых источников больших данных. Только представьте себе существующий совокупный объем текста! Есть электронные письма, текстовые сообщения, твиты, комментарии в социальных медиа, мгновенные сообщения, чаты и аудио записи, переведенные в текст. Текстовые данные — один из наименее структурированных источников данных. К счастью, на сегодняшний день уже многое сделано для того, чтобы освоить текстовые данные и использовать их для принятия более эффективных бизнес-решений. Анализ текста обычно начинается с его разбора и осмысления различных слов, фраз и компонентов, из которых он состоит. Это может быть сделано путем простого подсчета частотности употребления или с помощью более сложных методов. Существует дисциплина под названием «Обработка естественного языка», она часто используется в таких аналитических методах. Но это не является предметом обсуждения в данной книге. Инструменты для интеллектуального анализа текста существуют в качестве как компонентов основных аналитических систем, так и автономных приложений для анализа текста.

В основе одних инструментов для анализа текста лежит подход, при котором пользователи должны настроить программное обеспечение для идентификации интересующих их закономерностей. Другие инструменты используют машинное обучение и прочие алгоритмы, позволяющие отыскивать модели автоматически. Каждый подход имеет свои преимущества и недостатки, однако их обсуждение выходит за рамки этой книги. Мы сосредоточимся не на получении результатов, а на их использовании.

После разбора и классификации приступают к анализу. Результаты, полученные в процессе анализа текста, часто используются в качестве входных данных для других аналитических процессов. Например, после определения тона электронного письма клиента генерируется переменная, которая определяет тон заказчика как негативный или позитивный. Теперь этот тег — часть структурированных данных, которые можно использовать в качестве входных для аналитического процесса. Создание структурированных данных на основе неструктурированного текста часто называется извлечением информации.

В качестве другого примера предположим, что мы знаем, о каких товарах клиент оставил комментарии в процессе общения с нашей компанией. Мы создаем набор переменных, которые определяют товары, обсуждаемые клиентом. Эти переменные также представляют собой структурированные метрики, которые можно использовать в процессе анализа. Эти примеры показывают способы сбора фрагментов неструктурированных данных и создания из них релевантных и структурированных данных.

Интерпретация текстовых данных на самом деле довольно сложна. Смысл наших слов меняется в зависимости от того, какое из них мы акцентируем, а также от контекста, в который мы их помещаем. При взгляде на простой текст вы наверняка не знаете, на каком слове сделан акцент, и вам часто неизвестен весь контекст. Это означает, что придется сделать некоторые предположения. Мы поговорим об этом более подробно в главе 6.

Анализ текста — это одновременно искусство и наука, и он всегда будет подразумевать некоторый уровень неопределенности. При проведении анализа текста будут возникать проблемы, вызванные ошибками классификации и неоднозначностью. Это нормально. Если найденная в тексте закономерность позволяет принять более эффективное решение, то ее следует использовать. Цель анализа текста — улучшить принимаемые решения, а не достичь совершенства. Текстовые данные позволяют повысить качество принимаемых решений и предоставляют более ценную информацию, даже несмотря на содержащийся в них шум и неоднозначность.

Использование текстовых данных

Один из самых популярных вариантов анализа текста на сегодняшний день — исследование настроения. Анализ настроения позволяет изучить общее мнение большого количества людей, чтобы понять, о чем говорит рынок, что он чувствует и думает об организации. При этом часто используются данные социальных сетей. Вот некоторые примеры:

  • В чем суть шумихи вокруг компании или продукта?
  • О каких корпоративных инициативах говорят люди?
  • Положительно или отрицательно высказываются люди об организации и ее товарах и услугах?

Мы уже говорили о том, что одна из сложностей анализа текста заключается в том, что слова могут иметь позитивное или негативное значение в зависимости от контекста. Это необходимо принимать во внимание, однако общее настроение множества людей должно быть ясно. Зная о том, что говорят люди в социальных сетях или при общении с отделом обслуживания клиентов, можно более уверенно планировать дальнейшие действия.

Если организация уловит настроения отдельного клиента, она сможет судить о его намерениях и мнениях. Подобно веб-данным, которые помогают определить намерения, мнение потребителя о товаре является ценной информацией. Это особенно верно, если потребитель ранее не покупал этот продукт. Анализ настроений показывает, насколько легко или трудно будет убедить клиента приобрести данный продукт.

Текстовые данные применяются для распознавания закономерностей. Анализируя жалобы, заявки на ремонт и другие комментарии, сделанные клиентами, организация сможет быстрее выявлять и решать вопросы, пока они не превратились в серьезные проблемы. После вывода нового продукта на рынок и начала поступления жалоб анализ текста поможет определить, с какими трудностями сталкиваются клиенты. Иногда удается даже выявить назревающую проблему и предотвратить волну звонков в отдел обслуживания клиентов. Это позволит реагировать намного быстрее. Организация не только исправит дефекты в продуктах, которые будут выпущены позже, но и поможет клиентам справиться со сложностями, которые они испытывают сегодня.

Важной сферой использования текстовых данных является обнаружение мошенничества. В США в области страхования здоровья или трудоспособности, например, анализ текста можно использовать для разбора комментариев клиентов и заявлений на получение страховой выплаты. Затем выявляются закономерности, связанные со случаями мошенничества, чтобы оценить степень риска того или иного заявления. Заявления, которым присущ более высокий риск, следует проверять более тщательно. С другой стороны, некоторые заявления можно проверять автоматически. При наличии в заявлении закономерностей, терминов и фраз, относящихся к оправданным требованиям, его рассматривают как низкорисковое и проводят через систему в ускоренном режиме, а основные ресурсы сосредоточивают на заявлениях с более высоким риском.

Создавайте структуру там, где ее нет

Анализ текста — отличный пример того, как абсолютно неструктурированные данные могут быть обработаны и превращены в структурированные, которые используются в традиционных аналитических процессах. Один из основных аспектов процесса укрощения больших данных заключается в применении творческого подхода к процессу подготовки неструктурированных и полуструктурированных данных к дальнейшему использованию.

Преимущества анализа текста используются и в сфере юриспруденции. В судебных делах часто анализируются электронная переписка и другие истории сообщений с целью выявить информацию, которая может иметь отношение к делу. Например, какие из электронных писем могут содержать инсайдерскую информацию? Кто предоставлял заведомо ложную информацию при взаимодействии с другими людьми? Что особенного в природе угроз?

Применение такого способа анализа в судебном делопроизводстве называют обнаружением электронных данных (eDiscovery). Все перечисленные методы анализа могут помочь в раскрытии преступлений. Без анализа текста, «вручную», было бы практически невозможно проверить все необходимые документы. Даже если такая попытка была бы предпринята, высока вероятность упустить ключевую информацию в связи с монотонностью занятия.

Текстовые данные могут быть востребованы во всех отраслях. Это будет один из наиболее широко используемых источников больших данных. Умение собирать, разбирать и анализировать текст имеет для организаций решающее значение. Текст — это один из источников больших данных, которые необходимо укротить.

Разные отрасли: значение данных о времени и местоположении

С появлением систем глобального позиционирования (GPS), персональных GPS-устройств и сотовых телефонов информация о времени и местоположении превратилась в постоянно растущий источник данных. Множество сервисов и приложений, таких как Foursquare, Google Places и Facebook Places, регистрируют местонахождение человека в каждый момент. Приложения сотовых телефонов могут отслеживать ваши местоположение и передвижения по вашему требованию. Даже при отсутствии функции GPS сотовые телефоны достаточно точно определяют местоположение, используя сигналы базовых станций операторов мобильной связи.

Существуют новейшие возможности использования этой информации потребительскими приложениями, пользователи которых разрешают собирать эти данные. Например, некоторые приложения позволяют отслеживать точные маршруты, которые вы проходите, когда занимаетесь спортом, их расстояние и время, которое вам требуется на их преодоление. Дело в том, что при наличии сотового телефона вы можете собрать данные обо всех местах, в которых побывали, и при желании предоставить эту информацию другим людям. Чем больше людей начинают обнародовать данные о своем местоположении, тем больше появляется интересных возможностей их использования.

Многие организации начинают понимать ценность знания о том, где и когда находятся их потребители, и стараются получить у них разрешение на сбор такой информации. Разумеется, это всегда должно делаться на добровольной основе; кроме того, необходимо разработать четкую политику конфиденциальности и строго ее придерживаться. Сегодня организации придумывают привлекательные предложения, чтобы убедить клиентов предоставить им данные о том, где и когда они находятся.

Актуальны не только данные о местонахождении потребителей. Владелец грузовиков хочет знать, где находится каждый из них в любой момент. Владелец пиццерии интересуется, где сейчас находится каждый из разносчиков пиццы. Владельцам домашних животных нужно знать, где находятся их питомцы, когда их выпускают из дома. Фирма, занимающаяся организацией банкетов, хочет знать, насколько эффективно обслуживаются клиенты.

Как только организация начинает собирать данные о времени и месте нахождения отдельных людей и предметов, она оказывается в области больших данных. Это особенно верно, если такая информация часто обновляется. Одно дело знать, где находится каждый из грузовиков в начале и в конце каждого дня, и совсем другое — знать, где он находится в каждый момент. Данные о времени и месте, а также способы их использования будут находить все большее применение.

Использование данных о времени и месте нахождения

Данные о времени и месте нахождения — очень спорный тип больших данных. Здесь возникают серьезные вопросы, которые связаны не только с конфиденциальностью, но и с этическими и моральными соображениями. Можно ли вживлять детям чипы, чтобы обеспечить возможность их найти в случае, если они пропадут без вести? А как насчет пожилых людей, страдающих слабоумием, которые уходят из своего дома или специализированного учреждения? Разумеется, существует вероятность злоупотребления данными о времени и месте нахождения. Однако их ценность при использовании надлежащим образом также высока. Рассмотрим несколько примеров.

Скоро люди смогут зарегистрироваться в местном отделении полиции или пожарной охраны и предоставить информацию о своем обычном маршруте передвижения. В случае какой-либо крупной аварии, наводнения, пожара или затора на дороге люди получат оповещение от противопожарной службы или полиции о том, что в определенном месте их пути возникла нештатная ситуация, поэтому им следует воспользоваться другим маршрутом. Это ускорит дорожное движение. Со временем, если вы позволите, агентства смогут получать информацию о вашем местоположении в реальном времени.

На основе таких данных совсем недавно стали появляться предложения, учитывающие время и местоположение клиента. В будущем такие предложения приобретут огромную популярность в области маркетинга. Дело уже не просто в том, чтобы решить, что следует предложить клиенту сегодня или на этой неделе, а в том, чтобы сделать это исходя из того, где и когда клиент находится. Сегодня это, как правило, возможно после того, как клиент зайдет в систему и сообщит о своем местоположении. Когда-нибудь организации смогут сами отслеживать местонахождение клиентов постоянно и обращаться к ним по мере необходимости.

Например, клиент сообщает, что он будет находиться в пути с работы домой в 17:30 и проедет мимо Exit 5 между 17:45 и 18:00. Он собирается поужинать и хочет знать, что вы можете ему предложить, если он заедет в ваш магазин или ресторан. Вы должны предоставить ему то, что соответствует его потребностям, в тот самый момент и в том самом месте. Если вы отправите ему предложение по электронной почте следующим утром, будет уже слишком поздно. Вы должны сделать ему предложение, актуальное для конкретного времени и места, мимо которого он проезжает.

Разумеется, процесс управления предложениями усложняется, поскольку уже недостаточно просто отслеживать, какие предложения следует сделать каждому клиенту на этой неделе. Необходимо беспокоиться о том, где находится каждый клиент в любой момент и какое предложение ему следует сделать исходя из этого. Зависимыми от времени и места предложениями действительно будет труднее управлять. Однако в долгосрочной перспективе результаты, полученные при надлежащем использовании таких предложений, значительно превзойдут результаты использования традиционных персональных предложений. История неоднократно показала, что более нацеленные и конкретные предложения получают лучший отклик.

Делайте своевременные предложения

Новая тенденция в маркетинге — создание клиентских предложений, действующих лишь в пределах конкретного места и только в определенный период. Такие предложения могут быть гораздо более мощными и целенаправленными, чем предложения для неопределенного времени и места. те, кто сумел применить такой подход, уже увидели эффективные результаты.

Данные о времени и местонахождении используются и в процессе анализа социальных сетей. В дополнение к тому, что технология беспроводной связи позволяет определить взаимоотношения людей на основе голосовых или текстовых взаимодействий, данные о времени и местонахождении позволяют выявить людей, находящихся в одном и том же месте в одно и то же время. Например, кто посещал данный концерт или фильм? Кто ходил на то или иное спортивное событие? Кто обедал в конкретном ресторане в одно и то же время?

Выявив людей, которые часто оказываются в одном и том же месте в одно и то же время, можно определить тех, кто друг с другом незнаком, но принадлежит к одной и той же социальной сети и имеет много общих интересов. Представьте себе сервис знакомств, который располагает такой информацией и помогает людям найти свою судьбу! Возможно, стоит побудить людей познакомиться друг с другом или предложить им товары, которые могут быть им интересны?

Данные о времени и местонахождении помогают не только выявить прошлые закономерности, но и позволяют довольно точно предсказать, где клиенты будут находиться в будущем. Это особенно касается тех людей, которые придерживаются определенного графика. Если вы знаете, где находится конкретный человек и куда он направляется, то на основе этой информации можете предсказать, где он окажется через 10 минут или через час. Изучив историю передвижения потребителей, вы сможете предсказать, куда они направляются, когда следуют по тому или иному маршруту. По крайней мере список возможных вариантов значительно сузится. Это поможет обеспечить лучший таргетинг.

В ближайшие годы найдутся новые способы использования данных о времени и местонахождении; будут усовершенствованы процессы предоставления разрешения на использование данных, а также стимулы для потребителей. Пока же будьте очень осторожными и постарайтесь получить у своих клиентов явное согласие на использование информации. Это сделает сообщения более целенаправленными и личными по сравнению с сегодняшними. Возможно, что в скором времени идея создания предложений, которые не относятся к текущему времени и месту, покажется устаревшей.

Розничная торговля и производство: значение данных радиочастотной идентификации (RFID)

Метка радиочастотной идентификации, или RFID-метка, — это небольшая метка, которая помещается на палеты или упаковки с товарами. RFID-метка содержит уникальный серийный номер в отличие от UPC — общего кода для идентификации того или иного товара. Другими словами, она определяет, что в данной палете находится не просто несколько компьютеров модели 123, а уникальный набор компьютеров модели 123.

Когда считывающее устройство посылает сигнал, RFID-метка в ответ отправляет информацию. Если в радиусе действия этого устройства находится несколько меток, то все они могут ответить на один и тот же запрос, что существенно облегчает учет множества предметов. Даже если предметы располагаются друг на друге или за стеной, до тех пор пока сигналы считывающего устройства достигают меток, от них можно получить ответ. RFID-метки устраняют необходимость вручную пересчитывать все предметы и позволяют намного быстрее производить инвентаризацию.

Большинство используемых RFID-меток известны как пассивные. Это означает, что такие метки не имеют встроенных источников питания. Радиоволны считывающего устройства создают магнитное поле, обеспечивающее достаточную мощность, которая позволяет метке отправить содержащуюся в ней информацию. Хотя RFID-технология существует уже довольно длительное время, ее стоимость не позволяла применять ее повсеместно. Сегодня пассивная метка стоит всего несколько центов, и цена продолжает снижаться. По мере дальнейшего снижения цен сфера применения этой технологии будет продолжать расширяться. На сегодняшний день с RFID-технологией связаны определенные технические проблемы. Одна из них заключается в том, что жидкости могут блокировать сигналы. Со временем эти вопросы должны решиться путем обновления используемых технологий.

Существуют способы использования радиочастотной идентификации, знакомые большинству людей. Один из них — автоматический сбор оплаты проезда по платным дорогам, позволяющий водителям не останавливаться, проезжая мимо пункта взимания платы. В карте, предоставленной органом, взимающим плату, присутствует RFID-метка. Вдоль дороги расположены считывающие устройства. Когда автомобиль проезжает мимо, метка передает данные об автомобиле, что обеспечивает регистрацию факта вашего проезда.

Широко известен такой способ использования RFID-данных, как контроль за имуществом. Так, например, организация может пометить каждый принадлежащий ей ПК, рабочий стол или телевизор. Такие метки обеспечивают надежную инвентаризацию, а также оповещают, если предметы перемещаются за пределы предусмотренных областей. Например, считывающие устройства могут быть размещены на выходах. Если корпоративный актив покидает пределы организации без предварительного разрешения, подается сигнал, предупреждающий службу безопасности. Точно так же в магазинах метки подают сигнал тревоги, если их не деактивировали.

Один из самых популярных способов использования технологии RFID на сегодняшний день — отслеживание предметов и палет в пределах производственных и торговых площадей. Так, например, метка может быть помещена на каждую палету, отправляемую производителем розничному торговцу. Это облегчает учет запасов, находящихся в том или ином распределительном центре или магазине. В итоге практически каждый товар в магазине будет снабжен RFID-меткой или подобным чипом. Теперь, когда мы поняли, что собой представляют RFID-данные, рассмотрим, как их использование может улучшить современный бизнес.

Использование данных радиочастотной идентификации

RFID-данные могут сигнализировать, когда на полках розничного магазина заканчивается тот или иной товар. Если считывающее устройство постоянно опрашивает полки, чтобы определить оставшееся количество единиц товара, оно может уведомить о необходимости пополнить запасы. RFID-данные позволяют гораздо лучше отслеживать наличие товаров на полках, поскольку существует большая разница между наличием товара на складе и на полке. Может быть так, что на полке товар отсутствует, в то время как на складе находится пять упаковок.

В данном случае любой из традиционных способов анализа запасов покажет, что запасов достаточно и беспокоиться не о чем. Когда показатели продаж начинают падать, люди удивляются, почему это происходит. Если на товарах есть RFID-метка, легко установить, что на складе находятся пять единиц товара, а на полке — ни одной. Товар просто перемещается со склада на полку. Сегодня существуют определенные проблемы с точки зрения стоимости и технологии, однако для их решения предпринимаются определенные действия.

RFID-данные могут использоваться и для оценки эффективности использования рекламных стендов. Во время проведения специальных рекламных акций товар бывает представлен в нескольких местах по всему магазину. Традиционные данные, полученные из точки продажи, покажут только то, что рекламируемый товар продан. Невозможно узнать, с какого стенда он был взят. С помощью RFID-меток можно определить, какие товары были взяты с того или иного стенда. Это позволяет оценить влияние месторасположения на эффективность рекламного стенда.

Ценность RFID-данных возрастает при их комбинировании с другими данными. Если компания занимается сбором данных о температуре в распределительном центре, то товары, которые находились там во время отключения электроэнергии или другого чрезвычайного события, можно проверить на предмет порчи. Например, во время отключения электроэнергии, продолжавшегося в течение 90 минут, температура в определенной части склада сохранялась на отметке 32 °С. Благодаря технологии RFID можно точно установить, какие именно па-леты находились в этой части распределительного центра в то время, и принять соответствующие меры. Затем данные склада сопоставляются с данными о доставке. В случае вероятного повреждения товаров можно отозвать их или предупредить розничных торговцев, чтобы они проверили полученные товары.

Существуют и оперативные способы применения RFID-данных. Сотрудники распределительных центров не всегда аккуратно обращаются с товарами, и это часто приводит к их порче. Возможно, это касается конкретной бригады или даже конкретных сотрудников. Отдел по работе с персоналом сообщит о том, кто работает в тот или иной момент. Объединив эти данные с RFID-данными, которые показывают, когда товар был перемещен, можно определить тех сотрудников, чья работа сопровождается необычно частыми случаями поломки, усадки и воровства. Сочетание данных позволяет предпринимать более эффективные действия.

Ценность — в объединении данных

Ценность RFID-данных, как и многих других источников больших данных, заключается не только в том, что RFID-данные могут сообщить сами по себе. Ценность заключается в той информации, которую эти данные могут предоставить в сочетании с другими данными. Нелишним будет еще раз подчеркнуть, что большие данные должны быть интегрированы в те же процессы, что и другие данные. Не следует работать с большими данными отдельно от всего остального.

В будущем появится возможность использовать RFID-данные для отслеживания процесса покупки в физическом магазине так же, как это делается в интернет-магазинах. Если считывающие устройства будут находиться в тележках, можно определить, какие товары и в каком порядке потребители помещают в свои тележки. Даже если на отдельных товарах отсутствует метка, нетрудно установить путь перемещения корзины. При таком способе применения RFID-данных в физическом магазине становится возможным использование многих преимуществ, которые предоставляют веб-данные, о чем шла речь в главе 2. Эти последние два примера снова затрагивают проблемы конфиденциальности. Возможно, потребители не захотят, чтобы их процесс покупки отслеживался. В этом случае можно наладить «анонимное» отслеживание процессов покупки, при котором личность потребителя, генерирующего данные, нельзя установить.

Последний способ применения технологии RFID касается того, как можно уменьшить количество случаев мошенничества, связанных с возвратом украденных вещей. Если товар имеет RFID-метку, то благодаря уникальному идентификатору метки магазин определит, что возвращаемый товар входил в украденную партию, и примет соответствующие меры. Со временем RFID-метка может стать частью чека и ее будут запрашивать при возврате товара. Магазину будет известно не только то, что вы купили определенный товар, но и какая конкретно RFID-метка на нем находилась. Когда вы придете в пункт возврата товара, вам предстоит вернуть конкретный товар с конкретной меткой. Вы не сможете взять другой такой же товар с полки и обманным путем вернуть его вместе со своим чеком. Подобный способ использования технологии RFID затруднит попытки совершения мошеннических действий.

В ближайшие годы технология RFID окажет огромное влияние на производство и розничную торговлю. Она завоевывала популярность медленнее, чем многие ожидали. Однако по мере снижения стоимости и улучшения качества меток и считывающих устройств эта технология получит более широкое распространение.

Коммунальные предприятия: значение данных, генерируемых интеллектуальными сетями

Интеллектуальные сети представляют собой новое поколение электроэнергетической инфраструктуры. Интеллектуальная сеть гораздо более совершенна и надежна, чем традиционные линии электропередач. Она предполагает наличие сложных систем мониторинга, связи и генерации энергии, которые обеспечивают более надежное обслуживание и восстановление после отключения питания или возникновения других проблем. Различные датчики и мониторы отслеживают множество показателей работы самой энергосистемы и электроэнергии, подающейся через нее.

Одно из нововведений — так называемый интеллектуальный счетчик, который сменил традиционные электрические счетчики. По виду интеллектуальный счетчик мало чем отличается от привычных, однако он гораздо более функционален. Прежде каждые несколько недель или месяцев необходимо было посещать то или иное помещение и фиксировать показатели потребления электроэнергии. Интеллектуальный счетчик автоматически собирает данные, как правило, каждые 15 минут или каждый час. Это позволяет более точно оценивать энергопотребление каждой семьи или предприятия, а также целого района или даже всей сети.

Хотя разговор будет сосредоточен на интеллектуальных счетчиках, следует упомянуть о датчиках, расположенных по всей интеллектуальной сети. Объем данных, которые коммунальные предприятия получают от датчиков, установленных по всей интеллектуальной сети, значительно превышает объем данных, получаемых от интеллектуальных счетчиков. Синхрофазоры, которые снимают 60 показаний о работе энергетической системы в секунду, а также домашние сети, фиксирующие работу каждого устройства, — лишь два примера. Средний потребитель и не догадывается о существовании таких датчиков, однако для предприятий коммунального обслуживания они возымеют решающее значение. Эти датчики смогут собирать полный спектр данных о состоянии всей энергосистемы. Объем этих данных будет огромным.

Интеллектуальные сети уже применяются в некоторых странах Европы и Америки. Со временем практически каждую электрическую сеть в мире заменит интеллектуальная. Объем данных о потреблении электроэнергии, которые в результате станут доступными для коммунальных предприятий, вырастет в геометрической прогрессии. Как можно использовать такие данные? Давайте разберемся.

Использование данных интеллектуальных сетей

С точки зрения управления питанием данные от интеллектуальных счетчиков помогут лучше понять уровень потребностей клиентов, а также предоставить некоторые преимущества потребителям. Любой домовладелец сможет, например, проверить, какую мощность потребляют различные приборы, включив их по очереди, а затем изучив статистику потребления электроэнергии, предоставляемую интеллектуальным счетчиком.

Предприятия коммунального обслуживания по всему миру уже активно переходят на использование моделей ценообразования, учитывающих время суток или уровень спроса, а распространение интеллектуальных сетей ускорит этот процесс. Одна из основных задач коммунальных предприятий заключается в использовании новых программ ценообразования с целью повлиять на поведение клиентов и сократить потребление в часы максимальной нагрузки. Именно эти периоды пиковой нагрузки заставляют предприятия наращивать генерируемые мощности, что требует существенных затрат и оказывает негативное воздействие на окружающую среду. Если стоимость электроэнергии будет меняться в зависимости от времени суток и измеряться счетчиком, то у потребителей появится стимул изменить свое поведение. Снижение нагрузки и поддержание более стабильного уровня потребления приведут к уменьшению необходимости в расширении инфраструктуры и снижению затрат.

Энергетическая компания сможет выявлять всевозможные дополнительные тенденции, анализируя данные, предоставляемые интеллектуальными счетчиками. Какие клиенты потребляют мощность в периоды относительного спада уровня потребления? Кто из клиентов имеет похожие энергетические потребности в течение дня или недели? Коммунальное предприятие получит возможность сегментировать клиентов, исходя из закономерностей потребления, и разрабатывать продукты и программы для каждого конкретного сегмента. Собранные данные позволят выявить необычные модели потребления, а они укажут, какие проблемы требуют коррекции.

По сути, энергетические компании смогут производить анализ клиентов, который уже давно делается во всех остальных отраслях. Представьте себе телефонную компанию, которой известна общая сумма по счету в конце месяца, но ничего не известно о сделанных вами звонках. Или розничный магазин, который знает только общую сумму ваших покупок — и никаких дополнительных сведений. Финансовое учреждение, которому известен баланс по вашему счету на конец месяца — и никаких деталей о движении средств в течение месяца. Коммунальные компании работали с подобными данными, которых было недостаточно для понимания поведения клиентов. Они располагали данными об общем потреблении за месяц, и даже этот показатель часто был предположительным, а не точным.

Большие данные могут кардинально изменить отрасль

В некоторых случаях большие данные в буквальном смысле трансформируют отрасль и позволят вывести аналитику на новый уровень. Данные интеллектуальных сетей в сфере коммунального обслуживания — это только один из примеров. Информация об использовании электроэнергии будет поступать не раз в месяц, а предоставляться с интервалом, измеряемым в секундах или минутах. Добавьте к этому наличие сложных датчиков по всей сети, и вы увидите совершенно другой мир с точки зрения данных. анализ этих данных приведет к инновациям в тарифных планах, управлении питанием, и не только.

Данные, полученные от интеллектуальных счетчиков, позволят применить целый ряд новых способов анализа, от чего выиграют все. Потребители получат возможность использовать индивидуальные тарифные планы, основанные на их индивидуальных закономерностях потребления, подобно тому как телематические данные позволяют использовать индивидуальные тарифы автострахования. Клиент, который потребляет электроэнергию во время периодов пиковой нагрузки, будет платить больше, чем другие. Это заставит всех нас изменить модели потребления, как только мы получим соответствующие стимулы: например, мы будем включать посудомоечную машину в конце дня, а не сразу после обеда.

Коммунальные предприятия смогут лучше прогнозировать спрос, поскольку будут более подробно определять его закономерности. Они будут знать, какие именно клиенты потребляют мощность в тот или иной момент. Поставщик коммунальных услуг найдет способы влияния на поведение клиентов, чтобы выровнять уровень спроса и снизить частоту возникновения периодов пиковой нагрузки. Все это уменьшит необходимость в наращивании дорогостоящих генерирующих мощностей.

Благодаря интеллектуальным счетчикам каждое домохозяйство или предприятие получит возможность более эффективно отслеживать свое энергопотребление и принимать соответствующие меры. Это позволит не только более рационально использовать энергию и беречь окружающую среду, но и экономить деньги. В конце концов, если вы будете в состоянии определить, что потратили больше, чем собирались, то сможете скорректировать свое дальнейшее поведение. Наличие одного только итогового счета в конце месяца не позволит выявить такие возможности. Данные интеллектуального счетчика облегчают решение задачи.

Индустрия игр: значение данных отслеживания фишек

Мы уже рассказали о технологии радиочастотной идентификации и о том, как она используется в розничной торговле и производстве. Однако технология RFID имеет широкий спектр способов применения, и многие из них также приводят к генерации больших данных. В частности, RFID-метки могут использоваться в фишках казино. Каждая фишка, особенно высокой стоимости, может иметь собственную встроенную метку, что позволяет однозначно идентифицировать ее по серийному номеру метки.

Работа игровых автоматов в казино отслеживается уже в течение многих лет. После того как вы вставите в автомат свою карту постоянного игрока или кредитную карту, а затем потянете за ручку или нажмете кнопку, этот факт будет зарегистрирован. Кроме того, регистрируются размеры ваших ставок, а также любые полученные вами выигрыши. На протяжении многих лет производился надежный анализ таких данных, однако не существовало возможности сбора подобных данных с игровых столов. Внедрение меток в игровые фишки позволит это сделать.

Казино всегда отслеживало фишки с помощью камер и сотрудников, которые находились на местах и контролировали их перемещение.

Пит-босс* наблюдает за часто играющими игроками и оценивает их средние ставки и продолжительность игры, чтобы обеспечить соответствующие поощрения. Пит-боссы хорошо справляются со своей задачей, к тому же им помогают другие сотрудники, тем не менее они могут переоценить или недооценить игрока. Это происходит, если пит-босс наблюдает за игроком в тот момент, когда он ставит больше или меньше, чем обычно. Некоторые игроки даже пытаются обыграть систему, увеличивая свои ставки тогда, когда за ними, по их мнению, наблюдают.

Одна и та же технология может генерировать множество потоков больших данных

Розничные торговцы и производители используют технологию радиочастотной идентификации, как и владельцы казино. способы ее применения имеют сходства и различия. Интереснее всего то, что одна и та же технология может быть использована в различных отраслях для создания различных источников больших данных.

Пример с фишками казино — уникальный, но не исключительный способ применения технологии RFID. Будут появляться и другие. Этот пример показывает, что одни и те же базовые технологии генерируют различные потоки больших данных, схожих по природе, но различающихся способом применения. Интересно, что одна и та же технология может иметь совершенно разные виды применения, генерирующие множество типов больших данных в различных отраслях.

* Пит-босс — сотрудник казино, контролирующий порядок и соблюдение правил честной игры в рамках пита — нескольких игровых столов. Прим. ред.

Использование данных отслеживания фишек казино

Использование меток в фишках казино дает возможность точно отслеживать ставки каждого игрока, что гарантирует игроку заслуженный выигрыш в соответствии с условиями программы, награж дающей постоянных игроков. От этого получают выгоду и казино, и игрок. Казино распределяет средства среди игроков более справедливо. Излишнее поощрение недостойных игроков и недостаточное поощрение достойных приводят к неоптимальному распределению ограниченных ресурсов, выделенных на маркетинговые программы. Игроки, разумеется, всегда хотят, чтобы их оценивали справедливо.

Данные о ставках игроков позволят казино лучше их сегментировать и понимать закономерности назначения ставок. Кто из игроков обычно ставит $5, но время от времени поднимает ставку до $100? Кто из игроков каждый раз ставит по $10? Игроков можно сегментировать исходя из этих закономерностей. Кроме того, закономерности в назначении ставок могут указать на тех, кто занимается подсчетом карт при игре в блэк-джек.

При отслеживании фишек игроку становится намного тяжелее намеренно обмануть казино, а крупье — допустить ошибку. Поскольку ставки и выплаты можно проследить по фишкам, легко вернуться и сравнить видеозапись с результатами сдачи карт при игре в блэк-джек и сделанные выплаты. Даже если руки и головы игроков не позволяют разглядеть фишки, RFID-данные предоставят подробную информацию, и казино сможет выявить ошибки или случаи мошенничества, которые имели место. Один из примеров — ситуация, когда игрок подкладывает дополнительные фишки, пока крупье этого не видит.

Анализ за определенный период позволит выявить крупье или игроков, допускающих необычно большое количество ошибок. После этого либо будут приняты меры по предотвращению мошенничества, либо сотрудников обяжут пройти дополнительное обучение. Кроме того, снизится количество ошибок при подсчете фишек в кассе казино. Подсчет большого количества фишек разного достоинства — весьма однообразное занятие, и люди допускают ошибки. Технология RFID обеспечит более быстрый и точный подсчет.

Следует отметить, что возможность отслеживания отдельных фишек окажется сдерживающим фактором для воров. При краже стопки фишек идентификаторы RFID сообщат об этом. Когда кто-то приходит, чтобы обналичить фишки, или просто сидит с ними за столом, система выявляет этот факт и предупреждает службу безопасности. Если воры изменяют фишки так, что информацию с них невозможно было считать, об этом тоже станет известно. Казино будет точно знать все существующие идентификаторы фишек и ожидать от каждой из них сообщения действительного ID. В случае когда фишка не сообщает свой ID или когда сообщенный ID недействителен, казино может принять соответствующие меры.

Как и в любом бизнесе, чем эффективнее казино справляется с мошенничеством и обеспечивает соответствующие выплаты, тем меньше у него рисков. Это означает лучшее обслуживание игроков и более высокие шансы на выигрыш, поскольку у казино будет меньше расходов. Это выгодно и казино, и игрокам.

Промышленные двигатели и оборудование: значение данных, полученных от датчиков

В мире существует множество сложных машин и двигателей: самолеты, поезда, военная техника, строительное оборудование, буровое оборудование и т. д. Обеспечение надежной работы этого оборудования имеет огромное значение. В последние годы во всех видах техники — от двигателей самолетов до танков — начали использоваться встроенные датчики с целью посекундного наблюдения за состоянием оборудования.

Мониторинг может осуществляться с огромной степенью детализации, особенно во время тестирования и разработки. Например, в процессе разработки нового двигателя следует собрать как можно более подробные данные, чтобы определить, работает ли он так, как ожидалось. После выпуска двигателя замена в нем того или иного компонента связана с большими затратами, поэтому необходимо заранее тщательно проанализировать работу оборудования. Мониторинг также никогда не прекращается. Возможно, при постоянном мониторинге собираются не все данные, поступающие каждую миллисекунду, однако большое количество детальных сведений собирается для оценки жизненного цикла оборудования и выявления регулярно возникающих проблем.

Возьмем двигатель. Датчик может собирать все данные, начиная от температуры и количества оборотов в минуту и заканчивая скоростью расхода топлива и уровнем давления масла, с необходимой частотой. Объем данных очень быстро растет по мере увеличения частоты получения данных, количества метрик и числа отслеживаемых элементов. Почему это должно нас заинтересовать? Вот несколько примеров.

Использование данных, полученных от датчиков

Двигатели — очень сложные устройства. Они содержат много движущихся частей, должны работать при высоких температурах и в широком диапазоне рабочих условий. Их стоимость предполагает, что они проработают много лет. Стабильная и предсказуемая работа имеет решающее значение, и часто от нее зависят жизни людей. Техническое обслуживание самолета может стоить авиакомпании или военно-воздушным силам страны огромных денег, но это необходимо, если под угрозой безопасность. Крайне важно минимизировать время, в течение которого самолеты и авиационные двигатели, а также другое оборудование оказываются выведенными из эксплуатации.

Стратегии минимизации времени простоя предусматривают наличие запчастей или дополнительных двигателей, которые можно быстро заменить в оборудовании, требующем обслуживания; проведение диагностики для быстрого обнаружения частей, требующих замены, и закупку более надежных версий проблемных компонентов. Эффективное применение всех этих стратегий зависит от данных, которые используются для создания диагностических алгоритмов, а также в качестве входных данных при проведении диагностики определенных проблем. Инженерные организации с помощью данных, полученных от датчиков, точно определяют причины выхода оборудования из строя и разрабатывают новые способы обеспечения более длительной и надежной работы. Эти соображения применимы к двигателям воздушного, водного и наземного транспорта.

Путем сбора и анализа подробных данных о работе двигателя можно точно определить закономерности, которые приводят к поломке. Кроме того, можно выявить долгосрочные закономерности, которые вызывают уменьшение срока службы двигателя и/или необходимость более частого проведения ремонта. Количество пермутаций различных показаний, особенно с течением времени, делает анализ этих данных настоящим вызовом. Мало того что этот процесс подразумевает работу с большими данными, но и анализ, который необходимо проводить, сам по себе очень сложен. Вот некоторые примеры вопросов, на которые можно найти ответ:

  • Предсказывает ли внезапное падение давления неизбежный отказ оборудования почти со 100%-ной вероятностью?
  • Указывает ли устойчивое снижение температуры в течение нескольких часов на другие проблемы?
  • Что означают необычные уровни вибрации?
  • Приводит ли резкое увеличение оборотов двигателя при запуске к значительному изнашиванию определенных компонентов и увеличению частоты проведения требующегося ремонта?
  • Приводит ли недостаточное давление топлива, сохраняющееся на протяжении нескольких месяцев, к повреждению некоторых компонентов двигателя?

Недостаток структуры в структурированных данных

Работа с информацией, полученной от датчиков, — непростая задача. Хотя собранные данные структурированы и отдельные их элементы достаточно изучены, взаимосвязи между этими элементами не очевидны. Задержки во времени и не поддающиеся измерению внешние факторы могут еще больше усложнить дело. Процесс выявления долгосрочных взаимодействий различных показателей чрезвычайно труден, учитывая объем доступной информации. Наличие структурированных данных не гарантирует высокоструктурированного и стандартизированного подхода к их анализу.

Когда возникают серьезные проблемы, очень полезно вернуться и посмотреть, что происходило перед тем, как проблема была выявлена. В данном случае датчики двигателя работают подобно черным ящикам самолета, которые помогают диагностировать причину аварии: полученные данные можно использовать в диагностических и исследовательских целях. Такие датчики представляют собой более сложную форму телематических устройств — о них упоминалось в примере с автострахованием. Использование данных от сенсоров, которые постоянно собирают информацию о своем окружении, широко обсуждается в мире больших данных. Хотя здесь мы сосредоточили внимание на двигателях, существует бесчисленное множество других способов использования датчиков, к которым применимы те же принципы.

Процесс сбора данных от датчиков множества двигателей в течение длительного периода обеспечивает большой объем данных для анализа. Тщательно изучив их, вы сможете выявить проблемы в оборудовании и решить их на ранней стадии. Можно определить слабые стороны, а затем разработать процедуры решения проблем, которые могут возникнуть в результате выявленных недостатков. Преимущества заключаются не только в повышении уровня безопасности, но и в снижении затрат. Поскольку данные, полученные от датчиков, позволяют повысить безопасность двигателей и оборудования, которые дольше остаются в эксплуатации, это позволит обеспечить стабильную работу и снизить затраты. В этом случае выигрывают все.

Видеоигры: значение телеметрических данных

Телеметрия — это термин, используемый в индустрии видеоигр для фиксирования действий в игре. Телеметрические данные имеют концептуальное сходство с веб-данными, о которых шла речь в главе 2, поскольку описывают действия игроков в процессе игры. Телеметрические данные чаще применяются в онлайн-играх, чем в игровых консолях.

При игре в хоккей телеметрические данные фиксируют такие показатели, как местоположение игрока в момент удара по воротам, тип этого удара, скорость удара и его результат. В военной игре телеметрические данные отмечают, из какого оружия и в каком направлении был произведен выстрел, какой ущерб нанесен различным объектам. Теоретически можно обеспечить любой уровень детализации данных о сцене и действии.

Это позволит определять не только количество игроков и время, в течение которого они играли в игру. Телеметрические данные дают производителям игр возможность узнать подробности о действиях игроков и о том, как они взаимодействуют с играми. Объем собранных данных может быть огромным, а индустрия видеоигр только начинает серьезно подходить к их анализу. Телеметрия может оказать влияние на множество сфер. Легко увидеть параллель между телеметрическими данными и веб-данными с точки зрения преимуществ и способов применения.

Использование телеметрических данных

Многие производители игр зарабатывают деньги с помощью подписки, поэтому для них решающее значение имеет ее обновление. Анализ моделей поведения игроков позволяет понять, какие типы игрового поведения приводят к продлению подписки, а какие нет. Например, выясняется, что проведение турниров по спортивной игре с одновременным использованием некоторых дополнительных функций увеличивает показатель продления подписки. Производитель игры может стимулировать игроков принять участие в турнире, используя эти функции, если они еще этого не сделали.

Более новые игры часто предлагают игрокам купить что-нибудь за небольшую плату. Такие покупки известны как микротранзакции.

Например, за 10 центов игрок может купить специальное оружие. Анализ данных о ходе игры позволяет определить особые области, где такие микротранзакции будут пользоваться успехом. Возможно, в определенном месте игры пригодится специальное оружие, поскольку многие игроки испытывают в этом месте трудности. Сообщение на экране о доступности оружия может привести к тому, что многие игроки примут предложение и совершат покупку.

Объем телеметрических данных будет увеличиваться

В настоящее время телеметрические данные в основном касаются действий, произведенных игроком с помощью контроллера или клавиатуры. По мере развития интерактивных игр, которые позволяют фиксировать движения самого игрока, а не контроллеров, объем данных будет стремительно увеличиваться. Данные о том, на какую кнопку нажал игрок в тот или иной момент, предоставляют гораздо меньше информации, чем данные о том, в какой точке пространства находилась в этот момент каждая из частей тела игрока и в каком направлении и с какой скоростью эта часть тела двигалась.

Удовлетворение потребностей клиентов в индустрии видеоигр столь же важно, как и в любой другой сфере. Вот только в этом случае грань очень тонкая. Игра должна ставить перед игроками сложную задачу, однако не настолько сложную, чтобы она надоела игрокам и они выбрали бы другую.

Путем анализа игры можно определить те части, которые легко преодолевают большинство игроков, а также части, в которых даже лучшие игроки испытывают трудности. Такие области можно скорректировать, например, увеличив или уменьшив количество врагов, чтобы изменить уровень сложности. Стабилизация уровня сложности игры обеспечивает пользователям более удовлетворительный игровой опыт. Это приведет к повышению показателей продления подписки и к увеличению объема дополнительных покупок.

С помощью телеметрических данных можно сегментировать игроков исходя из их стиля игры. Эта информация важна как для разработки новых игр, так и для продвижения других существующих продуктов. Например, выясняется, что один сегмент игроков старается как можно быстрее преодолеть уровень, не заботясь ни о чем другом. Другой пытается собрать все бонусы перед завершением уровня. Третий сегмент стремится исследовать каждую деталь уровня. На основе этих данных можно осведомить игроков о других играх, соответствующих их стилю игры.

Сведения об игроках, которые могут предоставить телеметрические данные, полностью изменят индустрию видеоигр, которая только начинает использовать телеметрические данные. Уже в ближайшем будущем мы станем свидетелями значительного развития данной области применения. Кроме того, полученные в результате анализа телеметрических данных сведения изменят процесс создания и продвижения игр.

Телекоммуникации и другие отрасли: значение данных, полученных из социальных сетей

Социальные сети — источники больших данных, хотя во многих отношениях речь идет скорее о методологии анализа традиционных данных. Дело в том, что процесс анализа социальных сетей подразумевает работу с очень большими наборами данных и их использование таким способом, который увеличивает этот объем на несколько порядков.

Можно утверждать, что полный набор звонков по мобильному телефону или история текстовых сообщений, собранных оператором мобильной связи, сами по себе представляют источник больших данных. Анализ социальных сетей выведет их использование на новый уровень путем изучения нескольких видов ассоциаций вместо одного. Именно поэтому анализ социальных сетей может превратить источники традиционных данных в источники больших данных.

Современной телефонной компании уже недостаточно просто анализировать все звонки по отдельности. При анализе социальной сети необходимо определить, кто был участником телефонного разговора, а затем провести более глубокое изучение. Нужно узнать не только кому звонил я, но и кому, в свою очередь, звонили эти люди, кому звонили те люди и т. д. Чтобы получить более полное представление о социальной сети, можно проанализировать столько слоев, сколько позволяет система. При переходе от клиента к клиенту и от звонка к звонку объем данных возрастает в несколько раз. Это также усложняет их анализ, особенно когда речь идет о традиционных инструментах.

Те же принципы применимы к сайтам социальных сетей. При анализе любого пользователя социальной сети нетрудно определить, сколько у него контактов, как часто он отправляет сообщения, как часто заходит на сайт, а также другие стандартные метрики. Однако анализ широты сети контактов данного участника, включая его друзей, друзей друзей и друзей друзей друзей, предполагает гораздо более сложную обработку.

Нетрудно отследить одну тысячу участников или подписчиков. Однако между ними могут существовать до миллиона прямых и до миллиарда косвенных связей, если учитывать «друзей друзей». Именно поэтому анализ социальных сетей подразумевает работу с большими данными. На сегодняшний день он имеет целый ряд приложений.

Использование данных социальной сети

Данные социальных сетей и их анализ могут быть очень полезны, например, для изменения взгляда организации на своих клиентов. Отныне во главу угла будет ставиться не платежеспособность отдельного потребителя, а ценность его сети контактов. Пример, о котором пойдет речь, применим во многих других отраслях, где известны отношения между людьми или группами, однако мы сосредоточимся на беспроводных телефонах, поскольку именно в этой сфере данные методы используются наиболее широко.

Предположим, у оператора беспроводной связи есть абонент с относительно низкой платежеспособностью. Он пользуется базовым тарифным планом и не прибегает к дополнительным услугам. Этого клиента едва ли можно считать прибыльным. Традиционно оператор стал бы оценивать его на основании индивидуального счета, и, если бы такой клиент позвонил, чтобы пожаловаться, и стал угрожать расторжением договора на обслуживание, компания, скорее всего, позволила бы ему уйти, поскольку данный потребитель просто не стоит того, чтобы его удерживать.

Анализ социальной сети может выявить тот факт, что среди тех, кому звонит наш клиент, есть очень активные пользователи, имеющие весьма широкий круг друзей. Другими словами, контакты данного клиента имеют очень большую ценность для организации. Исследования показали, что, если один человек из этого круга покидает его, другие, скорее всего, последуют за ним. Выход людей из этого круга может приобрести характер эпидемии, и вскоре количество его участников будет стремительно сокращаться, что, безусловно, крайне нежелательно.

С помощью анализа социальной сети можно оценить общий доход организации, на который влияет клиент в нашем примере, а не только выручку, непосредственно им генерируемую. Это позволяет принять совершенно иные решения о том, как следует обращаться с этим клиентом. Оператор беспроводной связи может вложить в этого клиента дополнительные средства, чтобы защитить сеть, в которую он входит. Можно обеспечить стимулы, превосходящие индивидуальную доходность клиента, если это позволит заинтересовать более широкий круг клиентов, в который он входит.

Это замечательный пример того, что благодаря анализу больших данных приходят решения, в прошлом немыслимые, и обретают смысл. Без больших данных организация не попыталась бы удержать этого клиента и не осознала бы причину убытков, которые вскоре начали бы проявляться по мере того, как друзья этого клиента следовали бы его примеру. Цель сдвигается от максимизации прибыльности отдельных счетов к максимизации прибыльности сети потребителя.

Выявление клиентов, обладающих большой сетью контактов, позволяет определить, где следует сосредоточить усилия по укреплению имиджа бренда. Потребителям с большими связями можно предоставить бесплатные пробные версии продуктов в обмен на их отзывы. Стимулы помогут привлечь их к активному участию в обсуждениях на сайте корпоративной социальной сети, где они могли бы оставлять комментарии и мнения. Некоторые организации активно вербуют влиятельных клиентов и предоставляют им различные льготы, возможность раньше других испытать пробные версии продуктов и т. д. В свою очередь, эти клиенты продолжают оказывать влияние, тон которого становится все более позитивным, учитывая особое отношение к ним со стороны компании.

Анализ, проведенный в рамках таких социальных сетей, как LinkedIn или Facebook, помогает понять, с какой рекламой имеет смысл обращаться к конкретным пользователям. При этом учитываются не только те интересы, о которых они заявили лично. Не менее важны интересы их круга друзей или коллег. Пользователи никогда не сообщают обо всех своих интересах в социальных сетях, и невозможно узнать о них все подробности. Тем не менее, если большинство друзей пользователя интересуются, к примеру, велосипедным спортом, весьма вероятно, что и данный пользователь им тоже интересуется, даже если он не заявляет об этом прямо.

Учитывайте не только индивидуальную ценность

Очень важное преимущество использования данных социальной сети заключается в том, что она предоставляет возможность определить общий доход, на который влияет клиент, а не только прямой доход, который этот клиент генерирует. Это может привести к принятию совершенно иных решений о том, как следует инвестировать в этого клиента. Клиента, который обладает большим влиянием, необходимо поощрять гораздо больше, если, конечно, максимизация общей прибыли для организации важнее, чем максимизация прибыльности отдельных клиентов.

Анализ социальных сетей может быть полезен в целях борьбы с преступностью и предотвращения террористических актов. Можно выявить людей, связанных, пусть даже косвенно, с известными проблемными группами или лицами. Такой анализ называется анализом связей. Проб лемными могут быть как физические лица и группы людей, так и клуб или ресторан. Если в результате анализа выявляется, что данный человек часто общается с данными людьми в данных местах, то к нему следует присмотреться более внимательно. Хотя подобный вид анализа связан с проблемами конфиденциальности, он применяется сегодня в реальных жизненных ситуациях.

Этот вид анализа может оказаться полезным в онлайн-видео-играх. Кто с кем играет? Как эта закономерность изменяется от игры к игре? Анализ социальных сетей дополнит телеметрические данные. Мы определим модели, используемые игроком в каждой игре. Мы уже говорили о том, как игроков можно сегментировать исходя из индивидуального стиля игры. Объединяются ли игроки, использующие похожие игровые стили, в команды, когда играют вместе? Или они стремятся обеспечить разнообразие стилей? Такие сведения очень ценны для производителя игр, если он намерен предложить игрокам группы, к которым они могут присоединиться (например, при входе в систему пользователю предлагают конкретную группу из множества доступных вариантов).

В организациях был проведен ряд интересных исследований связей. Они начинались с изучения контактов, установленных с помощью электронной почты, телефона и текстовых сообщений в рамках организации. Взаимодействуют ли отделы друг с другом так, как ожидалось? Приходится ли некоторым сотрудникам выходить за пределы типичных каналов, чтобы решить рабочий вопрос? Кто пользуется бо'льшим влиянием и подходит для участия в исследовании способов улучшения системы коммуникации в рамках организации? Такой анализ поможет организациям лучше понять, как взаимодействуют между собой их сотрудники.

Сферы применения и влияния анализа социальных сетей будут только расширяться. Такой анализ всегда способствует значительному увеличению объема данных благодаря экспоненциально расширяющемуся характеру аналитического процесса. Вероятно, самая интересная особенность этого вида анализа состоит в том, что он помогает оценить влияние потребителя и его общую ценность для организации, что может полностью изменить отношение со стороны организации.

См. в Библиотеке: Укрощение больших данных / Билл Фрэнкс.