Статистические критерии проверки гипотез, уровень значимости и мощность критерия, Концепция Data Mining - О теории вероятностей
Полная версия

Главная arrow Математика, химия, физика arrow О теории вероятностей

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Статистические критерии проверки гипотез, уровень значимости и мощность критерия

Выбор м/у гипотезами Н0 и Н1 может сопровождаться ошибками 2 родов. Ошибка первого рода означает вероятность принятия Н1, если верна гипотеза

Н0: =Р(Н10)

Ошибка второго рода означает вероятность принятия Н0 если верна гипотеза

Н1: =Р(Н01)

Существует правильное решение двух видов

Р(Н00) = 1- и Р(Н11)=1-.

Правило, по которому принимается решение о том, что верна или неверна гипотеза Н0 называется критерием, где:

=Р(Н10)

уровень значимости критерия;

М= Р(Н11)=1-

мощность критерия. Статистический критерий К - случайная величина, с помощью которой принимают решение о принятии или отклонении Н0.

Концепция Data Mining

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина -- концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

 
Перейти к загрузке файла
<<   СОДЕРЖАНИЕ   >>