Интеллектуальный анализ данных

Материал из wikixw
Перейти к навигации Перейти к поиску

Интеллектуальный анализ данных-это процесс обнаружения закономерностей в больших наборах данных, включающий методы на пересечении машинного обучения, статистики и систем баз данных . интеллектуальный анализ данных-это междисциплинарное подпространство информатики и статистики с общей целью извлечения информации (с помощью интеллектуальных методов) из набора данных и преобразования информации в понятную структуру для дальнейшего использования. интеллектуальный анализ данных-это этап анализа процесса "обнаружение знаний в базах данных", или KDD. Помимо этапа сырого анализа, он также включает в себя управление базой данных и данными аспекты, предварительная обработка данных, рассмотрение моделей и выводов, показатели заинтересованности, соображения сложности, постобработка обнаруженных структур , визуализация и оперативное обновление . разница между анализом данных и интеллектуального анализа данных является то, что анализ данных используется для проверки моделей и гипотез в наборе данных, например, анализа эффективности маркетинговой кампании, независимо от количества данных; в отличие от них, интеллектуальный анализ данных использует машинное обучение и статистические модели, чтобы раскрыть тайные или скрытые закономерности в больших объемах данных.

Термин "интеллектуальный анализ данных" является неверным обозначением , поскольку целью является извлечение шаблонов и знаний из больших объемов данных, а не извлечение ( интеллектуальный анализ ) самих данных. Он также является модным словом и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , хранение , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитику . Книга интеллектуальный анализ данных: практические инструменты и методы машинного обучения с Java (который охватывает в основном материалы машинного обучения) первоначально должен был называться просто практическим машинным обучением , и термин интеллектуальный анализ данных был добавлен только по маркетинговым причинам. часто более общие термины ( крупномасштабный ) анализ данных и аналитика – или, когда речь идет о реальных методах, искусственный интеллект и машинное обучение – более уместны.

Фактическая задача интеллектуального анализа данных-это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных, интересных шаблонов, таких как группы записей данных ( кластерный анализ), необычные записи ( обнаружение аномалий) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный интеллектуальный анализ шаблонов ). Это обычно предполагает использование методов баз данных, таких как пространственные индексы . Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и могут использоваться в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике. Например, на этапе интеллектуального анализа данных можно определить несколько групп в данных, которые затем могут быть использованы для получения более точных результатов прогнозирования системой поддержки принятия решений . Ни сбор данных, ни подготовка данных, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, но относятся к общему процессу KDD в качестве дополнительных шагов.

Соответствующие термины "выемка данных", "вылов данных" и "вынюхивание данных" относятся к использованию методов интеллектуального анализа данных для выборки частей большего набора данных о населении, которые являются (или могут быть) слишком малыми, чтобы можно было сделать надежные статистические выводы о достоверности любых обнаруженных закономерностей. Однако эти методы могут быть использованы при создании новых гипотез для проверки на более крупных популяциях данных.

14.1 Гц Бдительный и сосредоточенный, жизнеспособность, концентрация на задачах, частота земли, повышение интеллектуальности, благоприятно для физических нагрузок.

описание

Этимология[править]

В 1960-х годах статистики и экономисты использовали такие термины, как Data fishing или data dredging, для обозначения того, что они считали плохой практикой анализа данных без априорной гипотезы. Термин "интеллектуальный анализ данных" был использован таким же критическим образом экономистом Майклом Ловеллом в статье, опубликованной в обзоре экономических исследований 1983 года. Ловелл указывает, что эта практика "маскируется под различными псевдонимами", начиная от" экспериментирования "(позитивного) до" рыбалки "или" вынюхивания " (негативного).

Термин интеллектуальный анализ данных появился около 1990 года в сообществе баз данных, как правило, с положительными коннотациями. В течение короткого времени в 1980-х годах была использована фраза "Database mining"™, но поскольку она была торговой маркой HNC, базирующейся в Сан-Диего компании, чтобы представить свою рабочую станцию для интеллектуального анализа данных; исследователи впоследствии обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных, сбор информации,обнаружение информации, извлечение знаний и т.д. Григорий Пятецкий-Шапиро придумал термин "обнаружение знаний в базах данных" для первого семинара на эту же тему (KDD-1989) и этот термин стал более популярным в сообществе искусственного интеллекта и машинного обучения. Однако термин интеллектуальный анализ данных стал более популярным в бизнес-сообществах и прессе. В настоящее время термины data mining и knowledge discovery используются взаимозаменяемо.

В академическом сообществе основные форумы для научных исследований начались в 1995 году, когда в Монреале под эгидой AAAI была начата первая международная конференция по интеллектуальному анализу данных и открытию знаний ( KDD-95). Его сопредседателями были Усама Файяд и Рамасами Утурусами. Годом позже, в 1996 году, Усама Файяд запустил журнал Kluwer под названием Data Mining and Knowledge Discovery в качестве его главного редактора-основателя. Позже он начал выпускать информационный бюллетень SIGKDD Sigkdd Explorations.[14] Международная конференция KDD стала основной конференцией самого высокого качества в области интеллектуального анализа данных с показателем принятия исследовательских работ ниже 18%. Журнал Data Mining and Knowledge Discovery является основным исследовательским журналом в данной области.

Фон[править]

Ручное извлечение паттернов из данных происходило на протяжении веков. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700s) и регрессионный анализ (1800s). Распространение, повсеместность и растущая мощь компьютерных технологий значительно увеличили возможности сбора, хранения и манипулирования данными. По мере роста объема и сложности наборов данных прямой "практический" анализ данных все больше дополняется косвенной автоматизированной обработкой данных, чему способствуют другие открытия в области компьютерных наук, такие как нейронные сети, кластерный анализ, генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных-это процесс применения этих методов с целью выявления скрытых закономерностей [15] в больших массивах данных. Он позволяет преодолеть разрыв между прикладной статистикой и искусственным интеллектом (которые обычно обеспечивают математическую основу) и управлением базами данных, используя способ хранения и индексирования данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, что позволяет применять такие методы ко все более крупным наборам данных.

Обработать[править]

Процесс обнаружения знаний в базах данных (KDD) обычно определяется с помощью следующих этапов:

  1. Выбор
  2. Предварительная обработка
  3. Преобразование
  4. Интеллектуальный анализ данных
  5. Устный перевод / оценка.

Он существует, однако, во многих вариациях на эту тему, таких как межотраслевой стандартный процесс для интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

  1. Понимание бизнеса
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

или упрощенный процесс, такой как

(1) предварительная обработка,

(2) интеллектуальный анализ данных и

(3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. единственным другим стандартом интеллектуального анализа данных, названным в этих опросах, была SEMMA . Однако в 3-4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных, и Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году.

Предварительная обработка[править]

Перед использованием алгоритмов интеллектуального анализа данных необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только шаблоны, реально присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти шаблоны, оставаясь при этом достаточно сжатым, чтобы быть извлеченным в течение приемлемого срока. Общим источником данных является витрина данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум, а также наблюдения с отсутствующими данными .

Интеллектуальный анализ данных[править]

Интеллектуальный анализ данных включает шесть общих классов задач:

  • Обнаружение аномалий (обнаружение выбросов/изменений/отклонений) – выявление необычных записей данных, которые могут представлять интерес, или ошибок данных, требующих дальнейшего изучения.
  • Обучение правилам ассоциации (моделирование зависимостей) – поиск связей между переменными. Например, супермаркет может собирать данные о покупательских привычках клиентов. Используя обучение правил ассоциации, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Это иногда называют анализом рыночной корзины.
  • Кластеризация-это задача обнаружения групп и структур в данных, которые так или иначе "похожи", без использования известных структур в данных.
  • Классификация-это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как "законное"или как "спам".
  • Регрессия-попытка найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки связей между данными или наборами данных.
  • Обобщение-обеспечение более компактного представления набора данных, включая визуализацию и генерацию отчетов.

Проверка результатов[править]

Пример данных, полученных с помощью Data dredging через бот, управляемый статистиком Тайлером Вигеном, по-видимому, показывает тесную связь между лучшим словом, выигравшим конкурс орфографии, и количеством людей в Соединенных Штатах, убитых ядовитыми пауками. Сходство в тенденциях-это, очевидно, совпадение.

Интеллектуальный анализ данных может быть непреднамеренно использован не по назначению, а затем может привести к результатам, которые кажутся значимыми; но которые на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных и мало пригодны для использования. Часто это происходит из-за того, что мы исследуем слишком много гипотез и не проводим надлежащего статистического тестирования гипотез . Простая версия этой проблемы в машинном обучении известна как чрезмерная подгонка , но одна и та же проблема может возникнуть на разных этапах процесса, и поэтому разделение поезда/теста - когда это применимо вообще - может быть недостаточно, чтобы предотвратить это.

Последний шаг обнаружения знаний из данных заключается в проверке того, что шаблоны, создаваемые алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все шаблоны, найденные алгоритмами интеллектуального анализа данных, обязательно являются допустимыми. Обычно алгоритмы интеллектуального анализа данных находят в обучающем наборе шаблоны, которые отсутствуют в общем наборе данных. Это называется чрезмерной подгонкой . Чтобы преодолеть это, оценка использует набор тестов данных, на которых алгоритм интеллектуального анализа данных не был обучен. Изученные шаблоны применяются к этому тестовому набору,и полученный результат сравнивается с требуемым результатом. Например, алгоритм интеллектуального анализа данных, пытающийся отличить "спам" от "законных" сообщений электронной почты, будет обучаться на обучающем наборе выборочных сообщений электронной почты. После обучения изученные шаблоны будут применены к тестовому набору электронных писем, на которых он не был был обучен. Точность паттернов затем можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма может быть использован ряд статистических методов, таких как ROC-кривые .

Если изученные шаблоны не соответствуют требуемым стандартам, то в дальнейшем необходимо провести повторную оценку и изменить этапы предварительной обработки и интеллектуального анализа данных. Если изученные паттерны соответствуют желаемым стандартам, то последний шаг-это интерпретация изученных паттернов и превращение их в знания.

Исследование[править]

Главным профессиональным органом в этой области является Ассоциация вычислительных машин (ACM) Special Interest Group ( SIG) по вопросам обнаружения знаний и интеллектуального анализа данных (SIGKDD ). С 1989 года эта ACM SIG принимала ежегодную международную конференцию и публиковала свои труды , а с 1999 года она опубликовала двухлетний академический журнал под названием "Sigkdd Explorations".

Компьютерные научные конференции по интеллектуальному анализу данных включают в себя::

  • Конференция CIKM - ACM Conference on Information and Knowledge Management
  • Европейская конференция по машинному обучению и принципам и практике обнаружения знаний в базах данных
  • Конференция KDD-ACM SIGKDD конференция по открытию знаний и интеллектуальному анализу данных

Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными / базами данных, таких как конференция ICDE, конференция SIGMOD и Международная конференция по очень большим базам данных

Стандарты[править]

Были предприняты некоторые усилия по определению стандартов для процесса интеллектуального анализа данных, например Европейский Кросс-отраслевой стандарт 1999 года для интеллектуального анализа данных (CRISP-DM 1.0) и стандарт интеллектуального анализа данных Java 2004 года (JDM 1.0). Разработка на преемниках этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор остановилась. JDM 2.0 был снят, не достигнув окончательного проекта.

Для обмена извлеченными моделями – в частности, для использования в прогнозной аналитике – ключевым стандартом является язык разметки прогнозной модели (PMML), который представляет собой язык на основе XML, разработанный группой интеллектуального анализа данных (DMG) и поддерживаемый в качестве формата обмена многими приложениями интеллектуального анализа данных. Как следует из названия, он охватывает только прогнозные модели-конкретную задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG.

Заметные использования[править]

Основная статья: Примеры интеллектуального анализа данных Смотрите также: категория: прикладной интеллектуальный анализ данных .

Интеллектуальный анализ данных используется везде, где есть цифровые данные, доступные сегодня. Заметные примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке и надзоре.

Вопросы конфиденциальности и этики[править]

Хотя сам термин "интеллектуальный анализ данных" может не иметь никаких этических последствий, он часто связан с добычей информации в отношении поведения людей (этического и иного).[26]

Способы использования интеллектуального анализа данных могут в некоторых случаях и контекстах вызывать вопросы, касающиеся конфиденциальности, законности и этики.[27] в частности, государственные или коммерческие наборы данных интеллектуального анализа данных для целей национальной безопасности или правоохранительных целей, например в рамках общей программы информирования или в рамках консультирования , вызвали обеспокоенность в отношении конфиденциальности.

Интеллектуальный анализ данных требует подготовки данных, которые могут раскрыть информацию или шаблоны, которые могут поставить под угрозу конфиденциальность и обязательства по обеспечению конфиденциальности. Обычно это происходит с помощью агрегации данных . Агрегирование данных включает в себя объединение данных вместе (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных, индивидуальных данных выводимым или иным образом очевидным). это не интеллектуальный анализ данных как таковой, но результат подготовки данных до – и для целей-анализа. Угроза личной жизни человека вступает в игру, когда данные, будучи скомпилированы, заставляют Data miner или любого, кто имеет доступ к недавно скомпилированному набору данных, иметь возможность идентифицировать конкретных людей, особенно когда данные изначально были анонимными.

Рекомендуется [ в соответствии с кем?] чтобы иметь представление о следующем, прежде чем собирать данные:

  • цель сбора данных и любых (известных) проектов интеллектуального анализа данных;
  • как будут использоваться эти данные;
  • кто будет иметь возможность добывать данные и использовать данные и их производные;
  • состояние безопасности, окружающей доступ к данным;
  • как можно обновить собранные данные.

Данные также могут быть изменены таким образом, чтобы стать анонимными, так что отдельные лица не могут быть легко идентифицированы.[30] однако даже "анонимизированные"наборы данных потенциально могут содержать достаточно информации, чтобы позволить идентифицировать отдельных лиц, как это произошло, когда журналисты смогли найти несколько человек на основе набора историй поиска, которые были непреднамеренно выпущены AOL.

Непреднамеренное раскрытие персонально идентифицируемой информации, ведущее к провайдеру, нарушает справедливую информационную практику. Эта неосторожность может привести к финансовым последствиям, эмоциональное или телесное повреждение указанного лица. В одном случае нарушения конфиденциальности, покровители Walgreens подали иск против компании в 2011 году за продажу информация о предписаниях для компаний по интеллектуальному анализу данных, которые в свою очередь предоставили данные к фармацевтическим компаниям.

Ситуация в Европе[править]

В Европе действуют достаточно жесткие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако принципы безопасной гавани США-ЕС в настоящее время эффективно подвергают европейских пользователей эксплуатации конфиденциальности американскими компаниями. В результате раскрытия информации о глобальной слежке Эдварда Сноудена было усилено обсуждение вопроса об отмене этого соглашения , поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности, и попытки достичь соглашения потерпели неудачу.

Ситуация в Соединенных Штатах[править]

В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США с помощью принятия регулирующих мер контроля, таких как закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует от отдельных лиц давать свое "информированное согласие" в отношении предоставляемой ими информации и ее предполагаемого использования в настоящем и будущем. Согласно статье в Biotech Business Week, "на практике HIPAA не может предложить никакой большей защиты, чем давние правила в области исследований", - говорит AAHC. Что еще более важно, цель правила защиты посредством осознанного согласия-приблизиться к уровню непостижимости для обычных людей."[36] это подчеркивает необходимость обеспечения анонимности данных в практике агрегирования и анализа данных.

Американское законодательство о конфиденциальности информации, такое как HIPAA и закон о семейных образовательных правах и конфиденциальности (FERPA), применяется только к конкретным областям, которые рассматриваются в каждом таком законе. Использование интеллектуального анализа данных большинством компаний в США не контролируется никаким законодательством.

Закон об авторских правах[править]

Ситуация в Европе[править]

Из-за отсутствия гибкости в европейском законодательстве об авторских правах и базах данных , майнинг в авторских работах, таких как веб-майнинг без разрешения владельца авторских прав, не является законным. Там, где база данных-это чистые данные в Европе, скорее всего, не будет никакого авторского права, но права на базы данных могут существовать, поэтому интеллектуальный анализ данных становится предметом регулирования директивой по базам данных . По рекомендации Hargreaves review это привело к тому, что правительство Великобритании внесло поправки в закон об авторских правах в 2014 году , чтобы разрешить добычу контента в качестве ограничения и исключения. Только вторая страна в мире сделала это после Японии,которая ввела исключение в 2009 году для интеллектуального анализа данных. Однако, в связи с ограничением Директивы об авторских правах, исключение Великобритании разрешает только добычу контента в некоммерческих целях. Закон Великобритании об авторских правах также не позволяет этому положению быть переопределенным договорными условиями. Европейская комиссия содействовала обсуждению заинтересованными сторонами вопросов разработки текстов и данных в 2013 году под названием "лицензии для Европы".[38] Акцент на решение этого правового вопроса в виде лицензий, а не ограничений и исключений привел к тому, что представители университетов, научных работников, библиотек, групп гражданского общества и издательств открытого доступа покинули диалог заинтересованных сторон в мае 2013 года.

Ситуация в Соединенных Штатах[править]

В отличие от Европы, гибкий характер американского законодательства об авторских правах, и в частности о добросовестном использовании, означает, что добыча контента в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, рассматривается как законная. Поскольку контент-майнинг является трансформирующим, то есть он не заменяет оригинальную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках урегулирования книги Google председательствующий судья по этому делу постановил, что проект оцифровки Google книг в авторских правах был законным, отчасти из-за преобразующих видов использования, которые были показаны в проекте оцифровки - один из которых был текстовым и интеллектуальным анализом данных.[40]

Программное обеспечение[править]

Смотрите также: раздел: Программное обеспечение для интеллектуального анализа данных и машинного обучения . Бесплатное программное обеспечение и приложения для интеллектуального анализа данных с открытым исходным

Следующие приложения доступны в рамках лицензий с открытым/свободным исходным кодом. Также доступен открытый доступ к исходному коду приложения.

  • Carrot2: структура кластеризации текста и результатов поиска.
  • Chemicalize.org : Шахтер химической структуры и веб-поисковик.
  • ELKI: университетский исследовательский проект с передовыми методами кластерного анализа и обнаружения выбросов, написанными на языке Java.
  • Ворота: естественный язык обработки и инженерный инструмент языка.
  • KNIME: The Konstanz Information Miner, удобный и всеобъемлющий фреймворк для анализа данных.
  • Массовый онлайн-анализ (MOA): интеллектуальный анализ потока больших данных в реальном времени с помощью инструмента дрейфа концепции на языке программирования Java.
  • MEPX-кросс-платформенный инструмент для регрессионных и классификационных задач, основанный на варианте генетического программирования.
  • ML-Flex: программный пакет, который позволяет пользователям интегрироваться со сторонними пакетами машинного обучения, написанными на любом языке программирования, выполнять анализ классификации параллельно на нескольких вычислительных узлах и создавать HTML-отчеты о результатах классификации.
  • mlpack: набор готовых к использованию алгоритмов машинного обучения, написанных на языке C++.
  • Nltk (Natural Language Toolkit): набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка Python.
  • OpenNN: Открытая библиотека нейронных сетей.
  • Оранжевый: программный комплекс для интеллектуального анализа данных и машинного обучения на основе компонентов, написанный на языке Python.
  • R: язык программирования и программная среда для статистических вычислений, интеллектуального анализа данных и графики. Это часть проекта GNU .
  • scikit-learn-это библиотека машинного обучения с открытым исходным кодом для языка программирования Python
  • Torch: библиотека глубокого обучения с открытым исходным кодом для языка программирования Lua и научной вычислительной платформы с широкой поддержкой алгоритмов машинного обучения.
  • UIMA: Uima (Unstructured Information Management Architecture) – это компонентная структура для анализа неструктурированного контента, такого как текст, аудио и видео, первоначально разработанная IBM.
  • Weka: набор программных приложений машинного обучения, написанных на языке программирования Java.

Несвободные программы и приложения для интеллектуального анализа данных[править]

Следующие приложения доступны по собственным лицензиям.

  • Angoss KnowledgeSTUDIO: инструмент интеллектуального анализа данных
  • Clarabridge: продукт для анализа текста.
  • Kxen Modeler: инструмент интеллектуального анализа данных, предоставляемый компанией KXEN Inc..
  • LIONsolver: интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
  • Megaputer Intelligence: программное обеспечение для интеллектуального анализа данных и текста называется PolyAnalyst.
  • Службы Microsoft Analysis Services: программное обеспечение интеллектуального анализа данных, предоставляемое корпорацией Майкрософт .
  • NetOwl: набор многоязычных текстовых и entity analytics продуктов, которые позволяют интеллектуальный анализ данных.
  • OpenText Big Data Analytics: визуальный интеллектуальный анализ данных и прогнозный анализ от Open Text Corporation
  • Oracle Data Mining: программное обеспечение для интеллектуального анализа данных от корпорации Oracle .
  • PSeven: платформа для автоматизации инженерного моделирования и анализа, мультидисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая компанией DATADVANCE .
  • Qlucore Omics Explorer: программное обеспечение для интеллектуального анализа данных.
  • RapidMiner: среда для машинного обучения и экспериментов по интеллектуальному анализу данных.
  • SAS Enterprise Miner: программное обеспечение для интеллектуального анализа данных, предоставляемое Институтом SAS .
  • SPSS Modeler: программное обеспечение для интеллектуального анализа данных, предоставляемое IBM .
  • STATISTICA Data Miner: программное обеспечение для интеллектуального анализа данных, предоставляемое компанией StatSoft .
  • Tanagra: ориентированное на визуализацию программное обеспечение для интеллектуального анализа данных, также для обучения.
  • Vertica: программное обеспечение для интеллектуального анализа данных, предоставляемое Hewlett-Packard .

Опросы рынка[править]

Ряд исследователей и организаций провели обзоры средств интеллектуального анализа данных и опросы программистов данных. Они определяют некоторые из сильных и слабых сторон программных пакетов. Они также предоставляют обзор поведения, предпочтений и представлений шахтеров данных. Некоторые из этих отчетов включают::

  • Hurwitz Victory Index: Report for Advanced Analytics в качестве инструмента оценки рыночных исследований он выделяет как разнообразное использование передовых аналитических технологий, так и поставщиков, которые делают эти приложения возможными.Недавние исследования
  • Rexer Analytics Data Miner Surveys (2007-2015)
  • 2011 междисциплинарные обзоры Wiley: интеллектуальный анализ данных и открытие знаний
  • Forrester Research 2010 Predictive Analytics and Data Mining Solutions report
  • Отчет Gartner 2008 "Magic Quadrant"
  • Роберт А. Нисбет 2006 три части серии статей "инструменты интеллектуального анализа данных: какой из них лучше всего подходит для CRM?"
  • Хотон и др.'S 2003 обзор программных пакетов интеллектуального анализа данных в американском статистике
  • Goebel & Gruenwald 1999 "a Survey of Data Mining A Knowledge Discovery Software Tools" in Sigkdd Explorations

См. также[править]

Методы

Предметные области

Пример использования

Основная статья: Примеры интеллектуального анализа данных Смотрите также: категория: прикладной интеллектуальный анализ данных .

Смежные темы

Интеллектуальный анализ данных - это анализ данных; сведения об извлечении информации из данных см. В разделе:

Другие ресурсы

Дальнейшее чтение[править]

  • Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Открытие интеллектуального анализа данных: от концепции до реализации, Prentice Hall,
  • M. S. Chen, J. Han, P.S. Yu (1996) "интеллектуальный анализ данных: обзор с точки зрения базы данных". Инженерия знаний и данных, IEEE Transactions on
  • Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press,
  • Го, Yike; and Grossman, Robert (editors) (1999); высокопроизводительный интеллектуальный анализ данных: алгоритмы масштабирования, приложения и системы, академические издательства Kluwer
  • Хан, Цзявэй, Мишлин Камбер и Цзянь пей. Интеллектуальный анализ данных: концепции и методы . Morgan kaufmann, 2006.
  • Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование, Springer,
  • Liu, Bing (2007, 2011); веб-анализ данных: изучение гиперссылок, содержимого и данных об использовании, Springer,
  • Мерфи, Крис (16 Мая 2011 Года). "Является Ли Интеллектуальный Анализ Данных Свободной Речью?". InformationWeek: 12.
  • Nisbet, Robert; Elder, John; Miner, Gary (2009); Справочник по статистическому анализу и приложениям для интеллектуального анализа данных, Academic Press /Elsevier,
  • Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (октябрь 2007 г.); "Шаблоны интеллектуального анализа данных: новые методы и приложения", Справочник по информатике,
  • Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); введение в интеллектуальный анализ данных,
  • Теодоридис, Сергиос; и Коутрумбас, Константинос (2009); распознавание образов, 4-е издание, академическая пресса,
  • Weiss, Sholom M.; and Indurkhya, Nitin (1998); прогнозирующий анализ данных, Morgan Kaufmann
  • Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 Января 2011 Года). Интеллектуальный анализ данных: практические инструменты и методы машинного обучения (3 изд.). Эльсевьер. . (Смотрите также бесплатное программное обеспечение Weka)
  • Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

Пруф[править]

curlie.org/Computers/Software/Databases/Data_Mining/Tool_Vendors