1. Основоположники концепции KDD.
Компьютеризация нашего общества существенно расширила наши возможности как для генерации, так и для сбора данных из различных источников. Огромное количество данных заполнило почти все аспекты нашей жизни. Этот взрывной рост хранимых или временных данных вызвал острую потребность в новых методах и автоматизированных инструментах, которые могут разумно помочь нам преобразовать огромные объемы данных в полезную информацию и знания. Это привело к появлению многообещающего и процветающего рубежа в компьютерных науках, называемого интеллектуальным анализом данных, и его различных приложений. Интеллектуальный анализ данных(Data Mining), также широко известный как обнаружение знаний из данных (KDD), представляет собой автоматическое или удобное извлечение шаблонов, представляющих знания, неявно сохраненные или захваченные в больших базах данных, хранилищах данных, Интернете, других крупных информационных репозиториях или потоках данных.
Основоположниками концепции KDD считаются Григорий И. Пятецкий-Шапиро и Усама М.Файад.
Григорий И. Пятецкий-Шапиро (Gregory I. Piatetsky-Shapiro) -специалист по данным и соучредитель конференций KDD, а также соучредитель и бывший председатель группы SIGKDD - Ассоциации вычислительной техники по обнаружению знаний, интеллектуальному анализу данных и науке о данных, также является президентом KDnuggets. Кстати, Григорий является сыном Ильи Пятецкого-Шапиро, который был одним из ведущих математиков в Москве.
Усама М.Файад (Usama M. Fayyad) - американский специалист по данным и соучредитель конференций KDD и ассоциации ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. Он является спикером по бизнес – аналитике, интеллектуальному анализу данных, научных данных и больших данных.
Существует ещё такое понятие как Data Mining – интеллектуальной анализ данных, отличие его от KDD в том, что KDD относится к общему процессу обнаружения полезных знаний из данных, тогда как интеллектуальный анализ данных относится к конкретному этапу этого процесса – как писал Григорий Пятецкий в одной из своих книг.
2. Как появился термин KDD?
KDD (Knowledge Discovery in Databases) берёт своё начало во второй половине 20 века и описывает определённую последовательность действий, которой необходимо следовать для извлечения полезного знания. Данная концепция Григория Пятецкого появилось благодаря его отцу Ильи Пятецкого-Шапиро (советский, израильский и американский математик, специалист в аналитической теории чисел, теории представлений групп и алгебраической геометрии. Лауреат премии Вольфа и Премии Израиля), он привил ему любовь к числам. Всё это привело его к изучению компьютерных наук и заинтересованности в искусственном интеллекте и машинном обучении.
В Нью-Йорском университете Григорий защитил докторскую диссертацию по использованию метода машинного обучения для оптимизации баз данных и его первая работа также была связана с БД. В итоге он решил объединить две интересующие его области (машинное обучение и БД) в нечто общее – так и родилась концепция KDD (обнаружение знаний в базах данных).
И немного статических данных из интервью с основоположником Григорием Пятецким-Шапиро:
Статистики в 1960х годах стали использовать такие термины как Data fishing (Data dredging), критикуя практику анализа данных. Data Mining стал применяться в 1990х годах в базах данных, а после Григорий ввёл термин KDD, обрёкший популярность в академических или исследовательских кругах. А позже Data Mining прижилось в бизнес-среде и прессе, хотя в 2003 году и заработало себе дурную славу. Именно его ассоциировали с американской государственной программой TIA (Total information Awareness – полная информационная прозрачность), которая была закрыта в результате протестов правозащитников.
В 2006 году большую популярность приобрело понятие Analytics. Во многом это было связано с появлением сервиса Google Analytics в декабре 2005-го. Согласно показателям Google Trends, термин Analytics в 2006 году обошел по популярности понятие Data Mining, хотя затем его рейтинги начали падать. Термин Data Science родился в начале 2000-х годов, но в своем современном значении начал использоваться только в 2012-м.