Data Mining

Data Mining (в переводе с англ. - «добыча данных», «интеллектуальный анализ данных», «глубинный анализ данных») - это собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

В интернет-маркетинге Data Mining позволяет компаниям извлекать из больших объёмов данных скрытые закономерности, которые затем используются для прогнозирования поведения потребителей, сегментации аудитории, персонализации предложений и повышения эффективности рекламных кампаний. По сути, это превращение «сырых» данных в ценную информацию для бизнеса.

Происхождение термина

Термин Data Mining был введён Григорием Пятецким-Шапиро в 1989 году. Работая в компании GTE Labs, он заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина - data mining («добыча данных») и knowledge discovery in data (который следует переводить как «открытие знаний в базах данных»).

В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по data mining. Сегодня это одна из ключевых дисциплин в области науки о данных.

Основные признаки получаемых знаний

Информация, найденная в процессе применения методов Data Mining, должна соответствовать четырём ключевым критериям:

Ранее неизвестные знания. Например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.
Нетривиальность. Закономерности нельзя просто так увидеть при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик.
Практическая полезность. Найденные знания должны быть применимы для новых данных с некоторой степенью достоверности и приносить определённую выгоду бизнесу.
Доступность для интерпретации. Знания должны быть представлены в понятном для пользователя виде (например, логические конструкции «если …, то»). В случае если извлеченные знания непрозрачны, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

Чем Data Mining отличается от Big Data

Важно различать понятия Data Mining и Big Data. Термином Big data обозначают все аспекты больших объёмов данных разного рода, включая как структурированные, так и неструктурированные данные, их сбор, хранение, классификацию и т.д. Data mining же относится исключительно к глубокому погружению в данные для извлечения ключевых знаний, шаблонов и сходств, а также другой информации из данных любого объёма (как большого, так и не очень). Таким образом, оба понятия пересекаются, но Data mining - это уже об использовании собранной информации с конкретными целями.

Отличие от статистики и OLAP

Традиционная математическая статистика и средства оперативной аналитической обработки данных (OLAP) обычно используются для проверки заранее сформулированных гипотез. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей, поскольку далеко не все закономерности в данных очевидны с первого взгляда.

Если при статистическом анализе формулируются вопросы типа: «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение Data Mining подразумевает ответы на вопросы: «Существует ли типичная категория клиентов, не оплачивающих счета?». Именно ответ на второй вопрос нередко обеспечивает более продуктивный подход к маркетинговой политике.

Основные задачи, решаемые Data Mining

Методами Data Mining решаются следующие задачи:

Классификация

Отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Например, определение, является ли клиент потенциально платёжеспособным или нет.

Кластеризация

Группировка объектов на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.

Регрессия и прогнозирование

Установление зависимости непрерывных выходных от входных переменных, в том числе с учётом временной составляющей (прогноз трендов).

Ассоциация

Выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).

Последовательные шаблоны

Установление закономерностей между связанными во времени событиями, то есть обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.

Анализ отклонений

Выявление наиболее нехарактерных шаблонов, которые могут указывать на мошенничество или ошибки.

Применение Data Mining в маркетинге

Data mining компании чаще всего используют для того, чтобы извлекать из данных полезную для себя информацию. С помощью программных решений для поиска паттернов в больших объёмах данных компании могут изучать поведение и привычки потребителей, чтобы разрабатывать более эффективные маркетинговые решения, повышать продажи и сокращать расходы.

Примеры информации, получаемой с помощью Data Mining:

Как зависят обращения клиентов за необходимыми товарами от дня недели, времени суток или времени года.
Какие категории клиентов чаще всего приобретают тот или иной товар.
Какая часть покупателей одного конкретного товара приобретает другой конкретный товар.
Какая категория клиентов чаще всего вовремя не отдаёт предоставленный кредит или просрочивает выплаты.

Вооружившись этой ценной информацией, можно выстроить более близкие отношения с клиентами, что позволяет:

лучше удерживать клиентов и избегать ненаправленных действий;
составлять профили клиентов и понимать их поведение;
поддерживать и повышать уровень прибыли;
сокращать затраты клиентов при покупках;
выходить на клиентов с интересными для них предложениями.

Инструменты Data Mining на Java

В сфере добычи данных, как и в Big data, Java является одним из основных языков программирования. Существует ряд популярных инструментов:

RapidMiner. Открытая платформа для добычи данных, написанная на Java. Одно из лучших доступных решений для прогнозного анализа с возможностью создания интегрированных сред для глубокого обучения, анализа текстов и машинного обучения. RapidMiner можно использовать как на локальных серверах, так и в облаке.
Apache Mahout. Open source Java библиотека для машинного обучения от Apache. Предназначена для масштабируемого машинного обучения с возможностью обработки данных на одной или нескольких машинах.
WEKA (Waikato Environment for Knowledge Analysis). Открытый набор алгоритмов, которые используются для разработки методов машинного обучения. Все алгоритмы WEKA заточены под машинное обучение и интеллектуальный анализ данных. Набор широко используется в бизнес-среде, предоставляя компаниям упрощённый анализ данных и предиктивную аналитику.
Java Data Mining Package. Библиотека Java с открытым исходным кодом для анализа данных и машинного обучения, облегчающая доступ к источникам данных и алгоритмам машинного обучения.

Этапы процесса Data Mining

Общепринятый процесс майнинга данных состоит из шести этапов:

Определение бизнес-целей. Формирование общих бизнес-целей проекта и понимание, как майнинг данных поможет их достичь.
Понимание данных. Сбор необходимых данных из разных источников, изучение их свойств.
Подготовка данных. Очистка и дополнение данных, фильтрация выборок с шумами и пропущенными данными.
Моделирование данных. Применение к данным специальных инструментов и математических моделей для поиска закономерностей.
Оценка. Сопоставление полученных результатов с бизнес-целями.
Развертывание. Интеграция добытых данных в бизнес-операции.

Связанные термины

Аноним

Поиск

Data Mining

Пространства имён

Ещё

Действия на странице

Содержание

Происхождение термина

Основные признаки получаемых знаний

Чем Data Mining отличается от Big Data

Отличие от статистики и OLAP

Основные задачи, решаемые Data Mining

Классификация

Кластеризация

Регрессия и прогнозирование

Ассоциация

Последовательные шаблоны

Анализ отклонений

Применение Data Mining в маркетинге

Инструменты Data Mining на Java

Этапы процесса Data Mining

Связанные термины

⧼⧽

🌐 MarketWiki

📈 Маркетинг

🧠 Знания

📚 Гайды и руководства

⭐ Популярное

💬 Контакты

✍️ Об авторе

Аноним

Поиск

Data Mining

Происхождение термина

Основные признаки получаемых знаний

Чем Data Mining отличается от Big Data

Отличие от статистики и OLAP

Основные задачи, решаемые Data Mining

Классификация

Кластеризация

Регрессия и прогнозирование

Ассоциация

Последовательные шаблоны

Анализ отклонений

Применение Data Mining в маркетинге

Инструменты Data Mining на Java

Этапы процесса Data Mining

Связанные термины

⧼⧽

Инструменты для страниц

Категории