Содержание материала
Многие часто применяемые подходы к анализу и моделированию используются уже в течение многих лет.
Некоторые из них, например линейная регрессия или деревья решения, эффективны и актуальны, но сильно упрощены.
Раньше простота была продиктована жесткими ограничениями, обусловленными инструментами и масштабируемостью, однако сегодняшние возможности позволяют сделать гораздо больше.
До появления компьютеров было невозможно произвести многочисленные итерации модели или применить сложные методы. С увеличением масштаба технологий обработки данных увеличился масштаб инструментов и методов, используемых для их анализа. Сегодня можно множество раз применять разнообразные алгоритмы к большим наборам данных.
Нередко в результате увеличившейся масштабируемости специалистам просто приходится чаще прибегать к одним и тем же устоявшимся методам. Однако многие аналитики начинают применять новые методологии, которые позволяют лучше использовать усовершенствованные инструменты, процессы и возможности масштабируемости.
Многие из этих новых методов были давно известны, но до последнего времени не применялись на практике. Это групповые методы, экспресс-моделирование и анализ текстовых данных.