Аналитические методы - Групповые методы (ensemble methods)

Аналитические методы - Групповые методы (ensemble methods)

Групповые методы (ensemble methods)

Групповые подходы концептуально достаточно просты. Вместо построения одной модели с помощью одной техники несколько моделей строятся с использованием нескольких техник. Как только результаты от всех моделей получены, они объединяются для определения итогового ответа. Для объединения различных результатов можно использовать что угодно, от простого среднего показателя до гораздо более сложной формулы. Важно отметить, что групповые модели позволяют выйти за рамки выбора одной лучшей модели из набора. В данном случае объединяются результаты нескольких моделей для предоставления одного итогового ответа.

Мощь групповых моделей заключается в том, что различные методы имеют свои преимущества и недостатки. Например, некоторые типы клиентов могут получить плохую оценку при использовании одной техники, но очень хорошую — при использовании другой. Объединение данных, полученных от нескольких моделей, улучшает алгоритм скоринга в целом, если не буквально, для каждого оцененного клиента, товара или местоположения магазина.

Допустим, для оценки вероятности совершения покупки клиентом конкретного товара используются линейная регрессия, логистическая регрессия, дерево решений и нейронная сеть. Оценки, полученные от каждой модели, будут объединены в одну с помощью группового подхода. Часто это сочетание дает более надежное предсказание совершения покупки.

Групповым моделям посвящена отличная книга Джона Элдера и Джованни Сени «Групповые методы в интеллектуальном анализе данных» (Ensemble Methods in Data Mining by John Elder and Giovanni Seni11). Групповые подходы получили распространение благодаря эволюции аналитических инструментов. Без наличия хорошего способа управления рабочим процессом и объединения результатов групповое моделирование представляет собой весьма громоздкий процесс. Представьте себе перспективу вручную запускать процесс для каждого из используемых методов. После завершения каждого процесса необходимо вручную объединить все результаты, чтобы оценить, как с задачей справился каждый из методов. Наконец, представьте, что необходимо решить, как объединить результаты в единый ответ. Сегодня аналитические инструменты могут сделать большую часть или даже всю кропотливую работу за вас.

Мудрость толпы

Каждый отдельный способ моделирования имеет сильные и слабые стороны. Комбинируя различные результаты, мы получим единый ответ, который может быть лучше результата отдельных моделей. Это похоже на то, как усредненный ответ, основанный на предсказаниях множества людей, может оказаться близким к правильному. Это явление часто называют мудростью толпы.

Одна из причин растущей популярности групповых моделей заключается в простоте теории, лежащей в их основе. Мудрость толпы в повседневной жизни исследована довольно широко (см. книгу Джеймса Шуровьески «Мудрость толпы»). Рынок предсказаний Iowa Electronic Market Университета штата Айова* в течение многих лет демонстрировал, что обоснованные предположения множества людей в среднем часто приближаются к правильному ответу. В самом деле, средний показатель может подойти к правильному ответу ближе, чем любой из ответов в отдельности.

Групповой метод использует концепции, которые изложены в книге «Мудрость толпы», применительно к аналитике. Множество моделей, делающих обоснованные предположения об исследуемых взаимосвязях, в среднем окажутся очень близки к правильному ответу. Может ли групповое моделирование решить все аналитические проблемы организации? Конечно, нет. Однако организациям следует добавить их в набор используемых методов.

* Некоммерческий академический рынок, прогнозирующий результаты политических выборов. Прим. ред.