Ящик с усами

Материал из wikixw
Перейти к навигации Перейти к поиску


В описательной статистике диаграмма коробки или boxplot-это метод графического изображения групп числовых данных через их квартили . Коробчатые графики могут также иметь линии, проходящие вертикально от коробок ( усов), указывающие на изменчивость за пределами верхних и нижних квартилей, следовательно, термины коробчатый график и диаграмма коробчатого Усова .

Рисунок 1. Блок-график данных эксперимента Майкельсона-Морли

Выбросы могут быть нанесены в виде отдельных точек. Квадратные графики непараметрические: они отображают вариации в выборках статистической совокупности без каких-либо предположений о базовом статистическом распределении (хотя boxplot Тьюки предполагает симметрию для усов и нормальность для их длины). Расстояния между различными частями коробки указывают на степень дисперсии (разброса) и асимметрию данных, а также показывают выбросы . В дополнение к самим точкам они позволяют визуально оценивать различные L-оценки, в частности, interquartile range , midhinge , range , mid-range и trimean . Квадратные графики могут быть нарисованы горизонтально или вертикально. Боксовые участки получили свое название от ящика посередине.

Типы[править]

Рисунок 2. Boxplot с усами от минимума к максимуму

Box и усы участков квартилей, и группа внутри коробки всегда второй квартиль (медиана). Но концы усов могут представлять несколько возможных альтернативных значений, среди них:

  • минимум и максимум всех данных (как на рисунке 2)
  • самая низкая дата все еще в пределах 1.5 IQR Нижнего квартиля, и самая высокая дата все еще в пределах 1.5 IQR верхнего квартиля (часто называемый tukey boxplot) (как показано на рисунке 3)
  • одно стандартное отклонение выше и ниже среднего значения данных
  • 9-й процентиль и 91-й процентиль
  • 2-й и 98-й процентили .
Рисунок 3. Такой же Boxplot с усами с максимумом 1.5 IQR

Любые данные, не включенные между усами, должны быть построены как выброс с точкой, небольшим кругом или звездой, но иногда это не делается.

Некоторые прямоугольники содержат дополнительный символ для представления среднего значения данных.

На некоторых участках коробки перекрестие помещено на каждом усе, перед концом уса.

Редко, заговоры коробки можно представить без бакенбард на всех.

Из-за этой изменчивости уместно описать соглашение, используемое для усов и выбросов в заголовке для сюжета.

Необычные процентили 2%, 9%, 91%, 98% иногда используются для усов перекрестных люков и концов усов, чтобы показать резюме с семью номерами . Если данные распределены нормально,то положения 7 меток на диаграмме коробки будут поровну разнесены.

Вариации[править]

Рисунок 4. Четыре участка коробки, с вырезами и без них и переменной шириной

До введения графика коробки гистограмма диапазона использовалась, чтобы передать вероятностный диапазон через коробку копьем Мэри Элинор в 1952 [6] и снова в 1969 .

С тех пор, как математик Джон У. Тьюки ввел этот тип визуального отображения данных в 1969 году, было описано несколько вариантов традиционного графика коробки. Двумя наиболее распространенными являются прямоугольники переменной ширины и зубчатые прямоугольники (см. Рис.4).

Графики полей переменной ширины иллюстрируют размер каждой группы, данные которой строятся, делая ширину блока пропорциональной размеру группы. Популярное соглашение должно сделать ширину коробки пропорциональной квадратному корню размера группы.

Надрезанные участки коробки применяют "выемку" или сужение коробки вокруг медианы. Надрезы полезны в предложении грубого руководства по значению различия медиан; если надрезы двух коробок не перекрываются, это свидетельствует о статистически значимой разнице между медианами.[1] Ширина вырезов пропорциональна межквартильному диапазону (IQR) образца и обратно пропорциональна квадратному корню размера образца. Однако существует неопределенность относительно наиболее подходящего множителя (так как он может изменяться в зависимости от сходства дисперсий выборок). одна конвенция заключается в использовании ± 1.58 I Q R n

Скорректированные квадратные графики предназначены для распределения перекосов . Они полагаются на статистику асимметрии medcouple. для значения medcouple MC длины верхнего и нижнего усов соответственно определяются следующим образом:

   1.5 I Q R ⋅ e 3 M C , 1.5 I Q R ⋅ e − 4 M C  if  M C ≥ 0 1.5 I Q R ⋅ e 4 M C , 1.5 I Q R ⋅ e − 3 M C  if  M C ≤ 0 

Для симметричных распределений medcouple будет равен нулю, и это уменьшает до tukey's boxplot с равными длинами 1.5 I Q R усов для обоих усов.

Визуализация[править]

Блок-график позволяет быстро провести графическое исследование одного или нескольких наборов данных. Квадратные графики могут показаться более примитивными, чем гистограмма или оценка плотности ядра, но у них есть некоторые преимущества. Они занимают меньше места и поэтому особенно полезны для сравнения распределений между несколькими группами или наборами данных (см. пример на Рис.1). Выбор количества и ширины ячеек может сильно влиять на внешний вид гистограммы, а выбор полосы пропускания может сильно влиять на внешний вид оценки плотности ядра.

Рисунок 5. Boxplot и функция плотности вероятности(pdf) нормальной популяции N (0,1 σ 2

Поскольку рассмотрение статистического распределения более распространено, чем просмотр графика коробки, сравнение графика коробки с функцией плотности вероятности (теоретическая гистограмма) для нормального распределения N(0,1 σ 2 ) может быть полезным инструментом для понимания графика коробки (Рис.5).

См. также[править]

Дальнейшее чтение[править]

Джон В. Тьюки (1977). Исследовательский Анализ Данных . Эддисон-Уэсли .

Пруф[править]