Закон Зипфа-Мандельброта

Материал из wikixw
Перейти к навигации Перейти к поиску

В теории вероятностей и статистикезакон Зипфа–Мандельброта представляет собой дискретное распределение вероятностей. Также известный как закон Парето-Зипфа, это степенное распределение ранжированных данных, названное в честь лингвиста Джорджа Кингсли Зипфа, который предложил более простое распределение, названное законом Зипфа, и математика Бенуа Мандельброта, который впоследствии обобщил его.

описание

Функция массы вероятности задается следующим образом:

f ( k ; N , q , s ) = 1 / ( k + q ) s H N , q , s

где H N , q , s дается по:

   H N , q , s = ∑ i = 1 N 1 ( i + q ) s 

который можно рассматривать как обобщение гармонического числа. В формуле k кесть ранг данных,а q qтакже и s спараметры распределения. В пределе, N Нприближающемся к бесконечности, это становится дзета-функцией Гурвица ζ ( s , q ) . Для конечного N Ни q = 0 q=0закон Зипфа-Мандельброта становится законом Зипфа. Для бесконечного N {\displaystyle N} Ни q = 0 q=0это становится Дзета-распределением.

Приложения[править]

Распределение слов ранжированных по их частоте в случайном порядке текстовый корпус аппроксимируется степенным распределением, известным как закон Зипфа.

Если построить график частотного ранга слов, содержащихся в корпусе текстовых данных среднего размера, в зависимости от числа вхождений или фактических частот, то можно получить степенное распределение с показателем, близким к единице (см. Powers, 1998 и Gelbukh & Sidorov, 2001). Закон зипфа неявно предполагает фиксированный размер словаря, но гармонический ряд с s=1 не сходится, в то время как обобщение Зипфа-Мандельброта с s>1 делает. Кроме того, имеются доказательства того, что замкнутый класс функциональных слов, определяющих язык, подчиняется распределению Зипфа-Мандельброта с различными параметрами по сравнению с открытыми классами содержательных слов, различающихся по теме, полю и регистру.

В экологических полевых исследованиях относительное распределение численности (то есть график числа видов, наблюдаемых в зависимости от их численности) часто оказывается соответствующим закону Зипфа–Мандельброта.

В музыке многие метрики измерения "приятной" музыки соответствуют распределениям Зипфа-Мандельброта.

Читать[править]

Mandelbrot, Benoît (1965). "Теория информации и психолингвистика". В Б. Б. Вольмане и Э. Нагеле (изд.). Научная психология. основная книга. Перепечатано как

  • Mandelbrot, Benoît (1968) [1965]. "Теория информации и психолингвистика". В R. C. Oldfield and J. C. Marchall (ed.). Язык. Книги Про Пингвинов.
  • Powers, David M W (1998). "Приложения и разъяснения закона Зипфа". Ассоциация компьютерной лингвистики: 151-160.
  • Зипф, Джордж Кингсли (1932). Избранные исследования принципа относительной частотности в языке. Cambridge, MA: Harvard University Press.

Пруф[править]

/github.com/gkohri/discreteRNG