Закон Зипфа-Мандельброта
В теории вероятностей и статистикезакон Зипфа–Мандельброта представляет собой дискретное распределение вероятностей. Также известный как закон Парето-Зипфа, это степенное распределение ранжированных данных, названное в честь лингвиста Джорджа Кингсли Зипфа, который предложил более простое распределение, названное законом Зипфа, и математика Бенуа Мандельброта, который впоследствии обобщил его.
Функция массы вероятности задается следующим образом:
f ( k ; N , q , s ) = 1 / ( k + q ) s H N , q , s
где H N , q , s дается по:
H N , q , s = ∑ i = 1 N 1 ( i + q ) s
который можно рассматривать как обобщение гармонического числа. В формуле k кесть ранг данных,а q qтакже и s спараметры распределения. В пределе, N Нприближающемся к бесконечности, это становится дзета-функцией Гурвица ζ ( s , q ) . Для конечного N Ни q = 0 q=0закон Зипфа-Мандельброта становится законом Зипфа. Для бесконечного N {\displaystyle N} Ни q = 0 q=0это становится Дзета-распределением.
Приложения[править]
Распределение слов ранжированных по их частоте в случайном порядке текстовый корпус аппроксимируется степенным распределением, известным как закон Зипфа.
Если построить график частотного ранга слов, содержащихся в корпусе текстовых данных среднего размера, в зависимости от числа вхождений или фактических частот, то можно получить степенное распределение с показателем, близким к единице (см. Powers, 1998 и Gelbukh & Sidorov, 2001). Закон зипфа неявно предполагает фиксированный размер словаря, но гармонический ряд с s=1 не сходится, в то время как обобщение Зипфа-Мандельброта с s>1 делает. Кроме того, имеются доказательства того, что замкнутый класс функциональных слов, определяющих язык, подчиняется распределению Зипфа-Мандельброта с различными параметрами по сравнению с открытыми классами содержательных слов, различающихся по теме, полю и регистру.
В экологических полевых исследованиях относительное распределение численности (то есть график числа видов, наблюдаемых в зависимости от их численности) часто оказывается соответствующим закону Зипфа–Мандельброта.
В музыке многие метрики измерения "приятной" музыки соответствуют распределениям Зипфа-Мандельброта.
Читать[править]
Mandelbrot, Benoît (1965). "Теория информации и психолингвистика". В Б. Б. Вольмане и Э. Нагеле (изд.). Научная психология. основная книга. Перепечатано как
- Mandelbrot, Benoît (1968) [1965]. "Теория информации и психолингвистика". В R. C. Oldfield and J. C. Marchall (ed.). Язык. Книги Про Пингвинов.
- Powers, David M W (1998). "Приложения и разъяснения закона Зипфа". Ассоциация компьютерной лингвистики: 151-160.
- Зипф, Джордж Кингсли (1932). Избранные исследования принципа относительной частотности в языке. Cambridge, MA: Harvard University Press.