Аналитические методы

Аналитические методы

Содержание материала

Многие часто применяемые подходы к анализу и моделированию используются уже в течение многих лет.

Некоторые из них, например линейная регрессия или деревья решения, эффективны и актуальны, но сильно упрощены.

Раньше простота была продиктована жесткими ограничениями, обусловленными инструментами и масштабируемостью, однако сегодняшние возможности позволяют сделать гораздо больше.

До появления компьютеров было невозможно произвести многочисленные итерации модели или применить сложные методы. С увеличением масштаба технологий обработки данных увеличился масштаб инструментов и методов, используемых для их анализа. Сегодня можно множество раз применять разнообразные алгоритмы к большим наборам данных.

Нередко в результате увеличившейся масштабируемости специалистам просто приходится чаще прибегать к одним и тем же устоявшимся методам. Однако многие аналитики начинают применять новые методологии, которые позволяют лучше использовать усовершенствованные инструменты, процессы и возможности масштабируемости.

Многие из этих новых методов были давно известны, но до последнего времени не применялись на практике. Это групповые методы, экспресс-моделирование и анализ текстовых данных.


Групповые методы (ensemble methods)

Групповые подходы концептуально достаточно просты. Вместо построения одной модели с помощью одной техники несколько моделей строятся с использованием нескольких техник. Как только результаты от всех моделей получены, они объединяются для определения итогового ответа. Для объединения различных результатов можно использовать что угодно, от простого среднего показателя до гораздо более сложной формулы. Важно отметить, что групповые модели позволяют выйти за рамки выбора одной лучшей модели из набора. В данном случае объединяются результаты нескольких моделей для предоставления одного итогового ответа.

Мощь групповых моделей заключается в том, что различные методы имеют свои преимущества и недостатки. Например, некоторые типы клиентов могут получить плохую оценку при использовании одной техники, но очень хорошую — при использовании другой. Объединение данных, полученных от нескольких моделей, улучшает алгоритм скоринга в целом, если не буквально, для каждого оцененного клиента, товара или местоположения магазина.

Допустим, для оценки вероятности совершения покупки клиентом конкретного товара используются линейная регрессия, логистическая регрессия, дерево решений и нейронная сеть. Оценки, полученные от каждой модели, будут объединены в одну с помощью группового подхода. Часто это сочетание дает более надежное предсказание совершения покупки.

Групповым моделям посвящена отличная книга Джона Элдера и Джованни Сени «Групповые методы в интеллектуальном анализе данных» (Ensemble Methods in Data Mining by John Elder and Giovanni Seni11). Групповые подходы получили распространение благодаря эволюции аналитических инструментов. Без наличия хорошего способа управления рабочим процессом и объединения результатов групповое моделирование представляет собой весьма громоздкий процесс. Представьте себе перспективу вручную запускать процесс для каждого из используемых методов. После завершения каждого процесса необходимо вручную объединить все результаты, чтобы оценить, как с задачей справился каждый из методов. Наконец, представьте, что необходимо решить, как объединить результаты в единый ответ. Сегодня аналитические инструменты могут сделать большую часть или даже всю кропотливую работу за вас.

Мудрость толпы

Каждый отдельный способ моделирования имеет сильные и слабые стороны. Комбинируя различные результаты, мы получим единый ответ, который может быть лучше результата отдельных моделей. Это похоже на то, как усредненный ответ, основанный на предсказаниях множества людей, может оказаться близким к правильному. Это явление часто называют мудростью толпы.

Одна из причин растущей популярности групповых моделей заключается в простоте теории, лежащей в их основе. Мудрость толпы в повседневной жизни исследована довольно широко (см. книгу Джеймса Шуровьески «Мудрость толпы»). Рынок предсказаний Iowa Electronic Market Университета штата Айова* в течение многих лет демонстрировал, что обоснованные предположения множества людей в среднем часто приближаются к правильному ответу. В самом деле, средний показатель может подойти к правильному ответу ближе, чем любой из ответов в отдельности.

Групповой метод использует концепции, которые изложены в книге «Мудрость толпы», применительно к аналитике. Множество моделей, делающих обоснованные предположения об исследуемых взаимосвязях, в среднем окажутся очень близки к правильному ответу. Может ли групповое моделирование решить все аналитические проблемы организации? Конечно, нет. Однако организациям следует добавить их в набор используемых методов.

* Некоммерческий академический рынок, прогнозирующий результаты политических выборов. Прим. ред.


 Экспресс-модели (commodity models)

Одной из актуальных тенденций является использование так называемых экспресс-моделей. Мы определим экспресс-модель как модель, которая создается быстро и без особых попыток полностью реализовать весь ее предсказательный потенциал. Экспресс-модели могут создаваться, например, автоматически с помощью простой ступенчатой аналитической процедуры. Цель в данном случае не в построении наилучшей модели, а в быстром создании хоть какой-то модели, которая позволяет получить приемлемый результат.

При надлежащем использовании экспресс-модели весьма полезны в рамках организации. Раньше построение моделей требовало больших временных и денежных затрат. Аналитики тратили недели или месяцы только на сбор данных, а затем — на применение к этим данным созданных моделей, поэтому модели создавались редко и только для решения очень важных задач. Если бы вам предстояло разослать 30–40 миллионов писем с рекламным предложением, то в создание модели стоило бы инвестировать. Однако если бы речь шла о предстоящей рассылке 30 000 предложений, касающихся недорогого товара, то инвестировать в создание модели было бы невыгодно.

Если аналитики используют современные среды, включая масштабируемые песочницы, а также современные процессы, в том числе аналитические наборы данных предприятия, то на построение модели уйдет намного меньше времени, чем раньше. Мы говорили об этом в главах 4 и 5.

Чем более доступны эти стандартные переменные и чем большие вычислительные мощности могут быть к ним применены, тем легче создавать модели.

Всегда помните, что легкость создания процесса не означает, что можно пренебречь необходимостью удостовериться в том, что этот процесс подходящий. Однако если им управляет хороший аналитик, вы добьетесь цели гораздо быстрее.

Иногда «достаточно хорошо» на самом деле означает «достаточно»!

Экспресс-модели призваны улучшить результаты там, где в противном случае вы вообще не использовали бы никаких моделей. Это более низкая планка по сравнению с той, которую всегда пытались преодолеть большинство моделей. Процесс создания экспресс-модели прекращается в момент достижения достаточно хорошего результата. Этот процесс хорошо подходит для решения задач малой важности или для ситуаций, когда требуется создать так много моделей, что их совершенствование не оправдано с прагматической точки зрения.

При оценке экспресс-модели основное внимание уделяется преимуществу, которое возникает благодаря ее использованию. Приложив дополнительные усилия, можно было бы многое улучшить. Однако если быстрая модель поможет в ситуации, в которой в противном случае модель бы не применялась, то она используется.

Приведем такую аналогию. Если у вас есть дом, то некоторые его части вы постараетесь сделать максимально удобными. Кухня, к примеру, требует особо тщательного подхода. В других случаях вам просто необходимо, чтобы работа была сделана. Возможно, что при переоборудовании гостевой ванной комнаты вы используете самые обычные материалы, поскольку в это помещение нет смыла вкладывать большие средства. Экспресс-модели помогают в подобных бизнес-ситуациях и имеют широкий спектр способов применения. Рассмотрим некоторые из них.


 Способы применения экспресс-моделей

Экспресс-модели позволяют применить передовые аналитические методы к гораздо более широкому спектру задач и в более крупном масштабе в рамках организации, чем это возможно, когда аналитикам приходится вручную создавать модель за моделью.

Так, розничные торговцы часто создают модели «склонности к покупкам» для важных категорий товаров. Нет смысла создавать специальную модель для медленно развивающихся и реже продвигаемых категорий. Сети бакалейных магазинов следует создать модель для таких товаров, как моющие средства для ванны и газированные напитки. Создавать модель для товаров, пользующихся меньшим спросом, вроде крема для обуви или сардин, не имеет смысла.

Но что если возникает необходимость в продвижении менее важных товаров? Допустим, производитель сардин готов спонсировать проведение рекламной акции для своих товаров. Некоторые розничные торговцы сегодня имеют модели для всех своих многочисленных категорий товаров. Многие из них представляют собой экспресс-модели. Они создаются на случай, если понадобятся, и в этих ситуациях могут сформировать некоторую дополнительную ценность. Таким важным категориям, как газированные напитки или чистящие средства для ванной, по-прежнему уделяется особое внимание, и для них создаются отдельные более сложные модели. Тем не менее использование экспресс-моделей позволяет обеспечить менее важные категории товаров хотя бы простейшей моделью.

Сегодня благодаря аналитическим инструментам такие модели создаются легче. В них появились возможности автоматического выполнения алгоритмов с множеством комбинаций показателей и несколькими автоматизированными методами проверки. Это позволяет быстро создать довольно неплохую модель. Менее важные задачи потребуют другого подхода. В самом деле, нет ничего плохого в использовании достаточно хорошей модели вместо самой лучшей, когда ситуация этого требует.

Рассмотрим способ применения экспресс-моделей для прогнозирования. Представьте себе производителя, которому необходимо обеспечить как можно более надежные прогнозы относительно уровней спроса, например по кварталам, по товарам и по странам. Что если ему потребовалось бы спрогнозировать спрос в каждом магазине или точке продаж на каждую неделю для каждого отдельного товара? На высококачественное прогнозирование просто не хватит человеко-часов. В таких случаях имеет смысл создавать автоматизированные достаточно хорошие прогнозы. Если прогнозы верхнего уровня точны, а совокупность прогнозов низкого уровня соответствует этой точности, то производитель останется доволен. В этом случае у него будут преимущества по сравнению с отсутствием каких-либо прогнозов.

Самое главное — убедиться в том, что вы используете процесс, который генерирует достаточно хорошие модели. Необходимо регулярно перепроверять процесс разработки экспресс-моделей и осмысленно оценивать их результаты. Не следует пускать процесс создания экспресс-моделей на самотек и позволять ему работать вообще без какого-либо вмешательства.


 Анализ текста

Один из наиболее быстро развивающихся методов, используемых сегодня организациями, — анализ текста и других неструктурированных источников данных, к которым относится значительная часть больших данных.

Анализ текста, как следует из названия, в качестве входных данных подразумевает некоторый текст. Он может представлять собой запись — электронное письмо, расшифровку диктофонной записи или даже отсканированный текст, преобразованный в электронную форму, например старые протоколы судебных заседаний. Причина роста популярности анализа текста — в богатстве новых источников текстовых данных.

В последние годы фиксируется все, начиная от электронной почты и комментариев в таких социальных сетях, как Facebook и Twitter, и заканчивая онлайн-запросами, текстовыми сообщениями и разговорами с сотрудниками колл-центров. Извлечение смысла из всех этих текстовых данных представляет собой непростую задачу. Существуют трудности, связанные с разбором, определением контекста и выявлением значимых закономерностей. Неструктурированных и текстовых данных у организаций становится больше, чем традиционных, структурированных данных. И эти типы данных нельзя игнорировать.

Текст — широко распространенный тип больших данных, и инструменты и методы его анализа прошли долгий путь развития. Сегодня существуют инструменты, которые помогают разобрать текст на составляющие его слова и фразы, а затем определить значение этих слов и фраз. Популярные коммерческие инструменты анализа текста предлагают такие компании, как Attensity, Clarabridge, SAS и SPSS.

Разбив текст на компоненты, можно определить их настроение или значение и выявить существующие тенденции. Часто к сводным статистическим данным о разобранном тексте применяются модели. Например, сколько электронных писем конкретного клиента написаны в положительном или отрицательном тоне? Как часто данный клиент фокусируется на конкретной продуктовой линии в своих сообщениях? Это позволяет структурировать необработанную информацию. Такой способ разбора и структурирования текста часто называется извлечением информации.

Важно понять, что сами по себе неструктурированные данные не анализируются. Сначала они подвергаются обработке, в результате которой им придается некоторая структура. Затем производится анализ этих структурированных результатов. Вспомните сериалы, в которых детективы выявляют преступника. Берется отпечаток пальца, затем на него наносятся различные точки, которые соединяются между собой. Наконец, детективы находят совпадение и выявляют преступника. В данном случае производится сопоставление не исходного неструктурированного отпечатка, а созданной на основе его узора структурированной формы. Такой подход характерен для анализа источников больших неструктурированных данных.

Анализ неструктурированных данных

Как правило, сами по себе неструктурированные данные не подвергаются анализу. сначала они подвергаются обработке, в результате которой им придается некоторая структура. Затем производится анализ структурированных результатов. Очень немногие аналитические процессы анализируют и делают выводы непосредственно на основе данных, находящихся в неструктурированной форме.

Применение контекста к текстовым данным представляет собой сложную задачу. Существуют определенные методы, однако этот процесс всегда предполагает долю творчества. Дело в том, что одни и те же слова могут иметь разные значения. Если я назову вас сумасшедшим, это будет воспринято как оскорбление. Однако если я скажу, что только что спустился по сумасшедшему горнолыжному склону, я имею в виду, что горнолыжный склон произвел потрясающее впечатление. Анализировать текст еще труднее, поскольку отдельные слова сами по себе часто не рассказывают всей истории и гораздо важнее то, как эти слова произносятся. Интонация может полностью изменить значение предложения.

Отличный пример приведен в табл. 6.1. Смысл всего предложения меняется, когда ударение перемещается. Если вы видите и слышите говорящего человека, то легко можете понять, что он имеет в виду. Когда у вас есть только текст, то понять его, используя лишь высказывание, невозможно. Предложения, которые окружают конкретное высказывание, помогают уяснить то, что имел в виду говорящий, однако переход на такой уровень анализа еще больше усложняет задачу. Вот почему анализ текста в течение некоторого времени будет оставаться сложной задачей.

Большинству организаций абсолютно необходимо начать использовать методы анализа текста. Анализ текста из метода, имеющего ограниченную область применения, превращается в технику, влияющую на широкий спектр отраслей и задач. Это один из примеров новых типов методик, которые необходимо развивать, чтобы обеспечить возможность обработки неструктурированных источников больших данных.

Таблица 6.1

Как акцент может изменить значение

Перенос акцента...

...изменяет значение

Я не говорил, что книга Билла — отстой

Но мой друг Боб сказал!

Я не говорил, что книга Билла — отстой

Как ты смеешь обвинять меня в этом?

Я не говорил, что книга Билла — отстой

Но я признаю, что написал это в электронном письме

Я не говорил, что книга Билла — отстой

Я сказал, что его блог — отстой!

Я не говорил, что книга Билла — отстой

Книга другого парня — отстой

Я не говорил, что книга Билла — отстой

Я просто сказал, что она не относится к числу моих любимых


Отслеживание появляющихся методов

Новые методы решения новых бизнес-задач появляются постоянно. Необходимо стремиться к тому, чтобы ваша организация использовала самые последние достижения. Если к вашему бизнесу применим новый метод или подход, кому-то нужно будет в нем разобраться. Рассмотрим несколько методов, которые поначалу использовались редко, а потом распространились повсеместно. Эти примеры демонстрируют, насколько быстро редко применяемый метод может стать широко используемым.

Совместная фильтрация имеет цели, схожие с анализом близости. Оба подхода используются для того, чтобы выявить, в чем может быть заинтересован конкретный потребитель, исходя из интересов других, «похожих» клиентов. Совместная фильтрация используется сегодня на сайтах по всему миру и представляет собой довольно быстрый и надежный способ получения достойных рекомендаций. По сути, она обычно реализуется в форме экспресс-модели. Базовый подход легко развернуть и быстро получить рекомендации довольно хорошего качества. С развитием всемирной паутины совместная фильтрация получила довольно широкое распространение и влияние. Десять-пятнадцать лет назад этот метод не был так хорошо известен.

Алгоритм ранжирования страниц — это метод, лежащий в основе деятельности компании Google. Google использует его для определения наиболее релевантных ссылок, которые могут быть предоставлены пользователям при обработке поискового запроса. Все остальные поисковые системы располагают собственной версией алгоритма ранжирования страниц. Сегодня большинство отдельных сайтов имеют встроенный вариант этого алгоритма, используемого при осуществлении поиска на сайте. Эти методы были разработаны совсем недавно и не использовались до наступления эпохи интернета.

Бóльшая часть населения никогда не слышала о совместной фильтрации или ранжировании страниц. Поколение назад большинство людей за всю свою жизнь могли ни разу не столкнуться с этими методами, однако в последние несколько лет они получили повсеместное распространение. Миллионы людей, путешествуя по всемирной паутине, используют эти методы анализа каждый день независимо от того, осознают они это или нет. В ближайшие годы широкое распространение получат другие методы, в настоящее время практически неизвестные. Каждая организация должна позаботиться о том, чтобы у нее были люди, которые отслеживали бы появление новых методов. О них можно узнать на конференциях по аналитическим технологиям, в специализированных журналах, статьях и блогах или от специалистов из других компаний.

См. в Библиотеке: Укрощение больших данных / Билл Фрэнкс.