Аналитические методы - Анализ текста

Аналитические методы - Анализ текста

 Анализ текста

Один из наиболее быстро развивающихся методов, используемых сегодня организациями, — анализ текста и других неструктурированных источников данных, к которым относится значительная часть больших данных.

Анализ текста, как следует из названия, в качестве входных данных подразумевает некоторый текст. Он может представлять собой запись — электронное письмо, расшифровку диктофонной записи или даже отсканированный текст, преобразованный в электронную форму, например старые протоколы судебных заседаний. Причина роста популярности анализа текста — в богатстве новых источников текстовых данных.

В последние годы фиксируется все, начиная от электронной почты и комментариев в таких социальных сетях, как Facebook и Twitter, и заканчивая онлайн-запросами, текстовыми сообщениями и разговорами с сотрудниками колл-центров. Извлечение смысла из всех этих текстовых данных представляет собой непростую задачу. Существуют трудности, связанные с разбором, определением контекста и выявлением значимых закономерностей. Неструктурированных и текстовых данных у организаций становится больше, чем традиционных, структурированных данных. И эти типы данных нельзя игнорировать.

Текст — широко распространенный тип больших данных, и инструменты и методы его анализа прошли долгий путь развития. Сегодня существуют инструменты, которые помогают разобрать текст на составляющие его слова и фразы, а затем определить значение этих слов и фраз. Популярные коммерческие инструменты анализа текста предлагают такие компании, как Attensity, Clarabridge, SAS и SPSS.

Разбив текст на компоненты, можно определить их настроение или значение и выявить существующие тенденции. Часто к сводным статистическим данным о разобранном тексте применяются модели. Например, сколько электронных писем конкретного клиента написаны в положительном или отрицательном тоне? Как часто данный клиент фокусируется на конкретной продуктовой линии в своих сообщениях? Это позволяет структурировать необработанную информацию. Такой способ разбора и структурирования текста часто называется извлечением информации.

Важно понять, что сами по себе неструктурированные данные не анализируются. Сначала они подвергаются обработке, в результате которой им придается некоторая структура. Затем производится анализ этих структурированных результатов. Вспомните сериалы, в которых детективы выявляют преступника. Берется отпечаток пальца, затем на него наносятся различные точки, которые соединяются между собой. Наконец, детективы находят совпадение и выявляют преступника. В данном случае производится сопоставление не исходного неструктурированного отпечатка, а созданной на основе его узора структурированной формы. Такой подход характерен для анализа источников больших неструктурированных данных.

Анализ неструктурированных данных

Как правило, сами по себе неструктурированные данные не подвергаются анализу. сначала они подвергаются обработке, в результате которой им придается некоторая структура. Затем производится анализ структурированных результатов. Очень немногие аналитические процессы анализируют и делают выводы непосредственно на основе данных, находящихся в неструктурированной форме.

Применение контекста к текстовым данным представляет собой сложную задачу. Существуют определенные методы, однако этот процесс всегда предполагает долю творчества. Дело в том, что одни и те же слова могут иметь разные значения. Если я назову вас сумасшедшим, это будет воспринято как оскорбление. Однако если я скажу, что только что спустился по сумасшедшему горнолыжному склону, я имею в виду, что горнолыжный склон произвел потрясающее впечатление. Анализировать текст еще труднее, поскольку отдельные слова сами по себе часто не рассказывают всей истории и гораздо важнее то, как эти слова произносятся. Интонация может полностью изменить значение предложения.

Отличный пример приведен в табл. 6.1. Смысл всего предложения меняется, когда ударение перемещается. Если вы видите и слышите говорящего человека, то легко можете понять, что он имеет в виду. Когда у вас есть только текст, то понять его, используя лишь высказывание, невозможно. Предложения, которые окружают конкретное высказывание, помогают уяснить то, что имел в виду говорящий, однако переход на такой уровень анализа еще больше усложняет задачу. Вот почему анализ текста в течение некоторого времени будет оставаться сложной задачей.

Большинству организаций абсолютно необходимо начать использовать методы анализа текста. Анализ текста из метода, имеющего ограниченную область применения, превращается в технику, влияющую на широкий спектр отраслей и задач. Это один из примеров новых типов методик, которые необходимо развивать, чтобы обеспечить возможность обработки неструктурированных источников больших данных.

Таблица 6.1

Как акцент может изменить значение

Перенос акцента...

...изменяет значение

Я не говорил, что книга Билла — отстой

Но мой друг Боб сказал!

Я не говорил, что книга Билла — отстой

Как ты смеешь обвинять меня в этом?

Я не говорил, что книга Билла — отстой

Но я признаю, что написал это в электронном письме

Я не говорил, что книга Билла — отстой

Я сказал, что его блог — отстой!

Я не говорил, что книга Билла — отстой

Книга другого парня — отстой

Я не говорил, что книга Билла — отстой

Я просто сказал, что она не относится к числу моих любимых