Источники больших данных

Источники больших данных

Содержание материала

Разные отрасли: значение текстовых данных

Текст — один из самых мощных и широко используемых источников больших данных. Только представьте себе существующий совокупный объем текста! Есть электронные письма, текстовые сообщения, твиты, комментарии в социальных медиа, мгновенные сообщения, чаты и аудио записи, переведенные в текст. Текстовые данные — один из наименее структурированных источников данных. К счастью, на сегодняшний день уже многое сделано для того, чтобы освоить текстовые данные и использовать их для принятия более эффективных бизнес-решений. Анализ текста обычно начинается с его разбора и осмысления различных слов, фраз и компонентов, из которых он состоит. Это может быть сделано путем простого подсчета частотности употребления или с помощью более сложных методов. Существует дисциплина под названием «Обработка естественного языка», она часто используется в таких аналитических методах. Но это не является предметом обсуждения в данной книге. Инструменты для интеллектуального анализа текста существуют в качестве как компонентов основных аналитических систем, так и автономных приложений для анализа текста.

В основе одних инструментов для анализа текста лежит подход, при котором пользователи должны настроить программное обеспечение для идентификации интересующих их закономерностей. Другие инструменты используют машинное обучение и прочие алгоритмы, позволяющие отыскивать модели автоматически. Каждый подход имеет свои преимущества и недостатки, однако их обсуждение выходит за рамки этой книги. Мы сосредоточимся не на получении результатов, а на их использовании.

После разбора и классификации приступают к анализу. Результаты, полученные в процессе анализа текста, часто используются в качестве входных данных для других аналитических процессов. Например, после определения тона электронного письма клиента генерируется переменная, которая определяет тон заказчика как негативный или позитивный. Теперь этот тег — часть структурированных данных, которые можно использовать в качестве входных для аналитического процесса. Создание структурированных данных на основе неструктурированного текста часто называется извлечением информации.

В качестве другого примера предположим, что мы знаем, о каких товарах клиент оставил комментарии в процессе общения с нашей компанией. Мы создаем набор переменных, которые определяют товары, обсуждаемые клиентом. Эти переменные также представляют собой структурированные метрики, которые можно использовать в процессе анализа. Эти примеры показывают способы сбора фрагментов неструктурированных данных и создания из них релевантных и структурированных данных.

Интерпретация текстовых данных на самом деле довольно сложна. Смысл наших слов меняется в зависимости от того, какое из них мы акцентируем, а также от контекста, в который мы их помещаем. При взгляде на простой текст вы наверняка не знаете, на каком слове сделан акцент, и вам часто неизвестен весь контекст. Это означает, что придется сделать некоторые предположения. Мы поговорим об этом более подробно в главе 6.

Анализ текста — это одновременно искусство и наука, и он всегда будет подразумевать некоторый уровень неопределенности. При проведении анализа текста будут возникать проблемы, вызванные ошибками классификации и неоднозначностью. Это нормально. Если найденная в тексте закономерность позволяет принять более эффективное решение, то ее следует использовать. Цель анализа текста — улучшить принимаемые решения, а не достичь совершенства. Текстовые данные позволяют повысить качество принимаемых решений и предоставляют более ценную информацию, даже несмотря на содержащийся в них шум и неоднозначность.

Использование текстовых данных

Один из самых популярных вариантов анализа текста на сегодняшний день — исследование настроения. Анализ настроения позволяет изучить общее мнение большого количества людей, чтобы понять, о чем говорит рынок, что он чувствует и думает об организации. При этом часто используются данные социальных сетей. Вот некоторые примеры:

  • В чем суть шумихи вокруг компании или продукта?
  • О каких корпоративных инициативах говорят люди?
  • Положительно или отрицательно высказываются люди об организации и ее товарах и услугах?

Мы уже говорили о том, что одна из сложностей анализа текста заключается в том, что слова могут иметь позитивное или негативное значение в зависимости от контекста. Это необходимо принимать во внимание, однако общее настроение множества людей должно быть ясно. Зная о том, что говорят люди в социальных сетях или при общении с отделом обслуживания клиентов, можно более уверенно планировать дальнейшие действия.

Если организация уловит настроения отдельного клиента, она сможет судить о его намерениях и мнениях. Подобно веб-данным, которые помогают определить намерения, мнение потребителя о товаре является ценной информацией. Это особенно верно, если потребитель ранее не покупал этот продукт. Анализ настроений показывает, насколько легко или трудно будет убедить клиента приобрести данный продукт.

Текстовые данные применяются для распознавания закономерностей. Анализируя жалобы, заявки на ремонт и другие комментарии, сделанные клиентами, организация сможет быстрее выявлять и решать вопросы, пока они не превратились в серьезные проблемы. После вывода нового продукта на рынок и начала поступления жалоб анализ текста поможет определить, с какими трудностями сталкиваются клиенты. Иногда удается даже выявить назревающую проблему и предотвратить волну звонков в отдел обслуживания клиентов. Это позволит реагировать намного быстрее. Организация не только исправит дефекты в продуктах, которые будут выпущены позже, но и поможет клиентам справиться со сложностями, которые они испытывают сегодня.

Важной сферой использования текстовых данных является обнаружение мошенничества. В США в области страхования здоровья или трудоспособности, например, анализ текста можно использовать для разбора комментариев клиентов и заявлений на получение страховой выплаты. Затем выявляются закономерности, связанные со случаями мошенничества, чтобы оценить степень риска того или иного заявления. Заявления, которым присущ более высокий риск, следует проверять более тщательно. С другой стороны, некоторые заявления можно проверять автоматически. При наличии в заявлении закономерностей, терминов и фраз, относящихся к оправданным требованиям, его рассматривают как низкорисковое и проводят через систему в ускоренном режиме, а основные ресурсы сосредоточивают на заявлениях с более высоким риском.

Создавайте структуру там, где ее нет

Анализ текста — отличный пример того, как абсолютно неструктурированные данные могут быть обработаны и превращены в структурированные, которые используются в традиционных аналитических процессах. Один из основных аспектов процесса укрощения больших данных заключается в применении творческого подхода к процессу подготовки неструктурированных и полуструктурированных данных к дальнейшему использованию.

Преимущества анализа текста используются и в сфере юриспруденции. В судебных делах часто анализируются электронная переписка и другие истории сообщений с целью выявить информацию, которая может иметь отношение к делу. Например, какие из электронных писем могут содержать инсайдерскую информацию? Кто предоставлял заведомо ложную информацию при взаимодействии с другими людьми? Что особенного в природе угроз?

Применение такого способа анализа в судебном делопроизводстве называют обнаружением электронных данных (eDiscovery). Все перечисленные методы анализа могут помочь в раскрытии преступлений. Без анализа текста, «вручную», было бы практически невозможно проверить все необходимые документы. Даже если такая попытка была бы предпринята, высока вероятность упустить ключевую информацию в связи с монотонностью занятия.

Текстовые данные могут быть востребованы во всех отраслях. Это будет один из наиболее широко используемых источников больших данных. Умение собирать, разбирать и анализировать текст имеет для организаций решающее значение. Текст — это один из источников больших данных, которые необходимо укротить.