Data Mining
Data Mining (в переводе с англ. - «добыча данных», «интеллектуальный анализ данных», «глубинный анализ данных») - это собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
В интернет-маркетинге Data Mining позволяет компаниям извлекать из больших объёмов данных скрытые закономерности, которые затем используются для прогнозирования поведения потребителей, сегментации аудитории, персонализации предложений и повышения эффективности рекламных кампаний. По сути, это превращение «сырых» данных в ценную информацию для бизнеса.
Происхождение термина
[править]Термин Data Mining был введён Григорием Пятецким-Шапиро в 1989 году. Работая в компании GTE Labs, он заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина - data mining («добыча данных») и knowledge discovery in data (который следует переводить как «открытие знаний в базах данных»).
В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по data mining. Сегодня это одна из ключевых дисциплин в области науки о данных.
Основные признаки получаемых знаний
[править]Информация, найденная в процессе применения методов Data Mining, должна соответствовать четырём ключевым критериям:
- Ранее неизвестные знания. Например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.
- Нетривиальность. Закономерности нельзя просто так увидеть при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик.
- Практическая полезность. Найденные знания должны быть применимы для новых данных с некоторой степенью достоверности и приносить определённую выгоду бизнесу.
- Доступность для интерпретации. Знания должны быть представлены в понятном для пользователя виде (например, логические конструкции «если …, то»). В случае если извлеченные знания непрозрачны, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.
Чем Data Mining отличается от Big Data
[править]Важно различать понятия Data Mining и Big Data. Термином Big data обозначают все аспекты больших объёмов данных разного рода, включая как структурированные, так и неструктурированные данные, их сбор, хранение, классификацию и т.д. Data mining же относится исключительно к глубокому погружению в данные для извлечения ключевых знаний, шаблонов и сходств, а также другой информации из данных любого объёма (как большого, так и не очень). Таким образом, оба понятия пересекаются, но Data mining - это уже об использовании собранной информации с конкретными целями.
Отличие от статистики и OLAP
[править]Традиционная математическая статистика и средства оперативной аналитической обработки данных (OLAP) обычно используются для проверки заранее сформулированных гипотез. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей, поскольку далеко не все закономерности в данных очевидны с первого взгляда.
Если при статистическом анализе формулируются вопросы типа: «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение Data Mining подразумевает ответы на вопросы: «Существует ли типичная категория клиентов, не оплачивающих счета?». Именно ответ на второй вопрос нередко обеспечивает более продуктивный подход к маркетинговой политике.
Основные задачи, решаемые Data Mining
[править]Методами Data Mining решаются следующие задачи:
Классификация
[править]Отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Например, определение, является ли клиент потенциально платёжеспособным или нет.
Кластеризация
[править]Группировка объектов на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
Регрессия и прогнозирование
[править]Установление зависимости непрерывных выходных от входных переменных, в том числе с учётом временной составляющей (прогноз трендов).
Ассоциация
[править]Выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).
Последовательные шаблоны
[править]Установление закономерностей между связанными во времени событиями, то есть обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.
Анализ отклонений
[править]Выявление наиболее нехарактерных шаблонов, которые могут указывать на мошенничество или ошибки.
Применение Data Mining в маркетинге
[править]Data mining компании чаще всего используют для того, чтобы извлекать из данных полезную для себя информацию. С помощью программных решений для поиска паттернов в больших объёмах данных компании могут изучать поведение и привычки потребителей, чтобы разрабатывать более эффективные маркетинговые решения, повышать продажи и сокращать расходы.
Примеры информации, получаемой с помощью Data Mining:
- Как зависят обращения клиентов за необходимыми товарами от дня недели, времени суток или времени года.
- Какие категории клиентов чаще всего приобретают тот или иной товар.
- Какая часть покупателей одного конкретного товара приобретает другой конкретный товар.
- Какая категория клиентов чаще всего вовремя не отдаёт предоставленный кредит или просрочивает выплаты.
Вооружившись этой ценной информацией, можно выстроить более близкие отношения с клиентами, что позволяет:
- лучше удерживать клиентов и избегать ненаправленных действий;
- составлять профили клиентов и понимать их поведение;
- поддерживать и повышать уровень прибыли;
- сокращать затраты клиентов при покупках;
- выходить на клиентов с интересными для них предложениями.
Инструменты Data Mining на Java
[править]В сфере добычи данных, как и в Big data, Java является одним из основных языков программирования. Существует ряд популярных инструментов:
- RapidMiner. Открытая платформа для добычи данных, написанная на Java. Одно из лучших доступных решений для прогнозного анализа с возможностью создания интегрированных сред для глубокого обучения, анализа текстов и машинного обучения. RapidMiner можно использовать как на локальных серверах, так и в облаке.
- Apache Mahout. Open source Java библиотека для машинного обучения от Apache. Предназначена для масштабируемого машинного обучения с возможностью обработки данных на одной или нескольких машинах.
- WEKA (Waikato Environment for Knowledge Analysis). Открытый набор алгоритмов, которые используются для разработки методов машинного обучения. Все алгоритмы WEKA заточены под машинное обучение и интеллектуальный анализ данных. Набор широко используется в бизнес-среде, предоставляя компаниям упрощённый анализ данных и предиктивную аналитику.
- Java Data Mining Package. Библиотека Java с открытым исходным кодом для анализа данных и машинного обучения, облегчающая доступ к источникам данных и алгоритмам машинного обучения.
Этапы процесса Data Mining
[править]Общепринятый процесс майнинга данных состоит из шести этапов:
- Определение бизнес-целей. Формирование общих бизнес-целей проекта и понимание, как майнинг данных поможет их достичь.
- Понимание данных. Сбор необходимых данных из разных источников, изучение их свойств.
- Подготовка данных. Очистка и дополнение данных, фильтрация выборок с шумами и пропущенными данными.
- Моделирование данных. Применение к данным специальных инструментов и математических моделей для поиска закономерностей.
- Оценка. Сопоставление полученных результатов с бизнес-целями.
- Развертывание. Интеграция добытых данных в бизнес-операции.
