Общий интернет-корпус русского языка

Материал из wikixw
Перейти к навигации Перейти к поиску

Общий интернет-корпус русского языка (GICR) - это корпус русскоязычных интернет-текстов, который был доступен по запросу через онлайн-интерфейс запросов с 2013 года. Корпус включает в себя насыщенные текстовые Материалы из блогосферы, социальных сетей, крупных новостных источников и литературных журналов.

Цели проекта[править]

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и исследовательскими группами с использованием материалов, полученных ГМИЦР. В то время как другие корпусные проекты русского языка ориентированы на художественную литературу и отредактированные тексты, общий интернет-корпус предоставляет лингвистам своевременную возможность изучать язык как он есть, со всеми его жаргонными и региональными особенностями.

Корпус дает возможность проводить исследования в следующих областях:

  • Лингвистические исследования широкого спектра: диалектологические исследования, изучение распределения слов, изучение языка социальных сетей, изучение влияния гендерных, возрастных и других факторов на язык, частотность слов, фиксированных выражений и различных конструкций, стилистические особенности текстов различных сегментов интернета и др.
  • Анализ социальных медиа
  • Машинное обучение на основе корпуса для оценки автоматического мечения [1]

В разное время на материале проекта выполнялись студенческие работы и самостоятельные исследования студентами, выпускниками и сотрудниками МГУ, МФТИ, Российского государственного гуманитарного университета, Новосибирского государственного университета, Высшей школы экономики, Российской академии наук, СФУ, ХГУ, СГМП, ИААС МГУ.

Руководители научных проектов:

  • Беликов В. - РГГУ, Москва, Россия
  • Селегей В. - РГГУ, ABBYY, Москва, Россия
  • Sharoff S.-РГГУ, Москва, Россия; Лидский университет, Великобритания [2]

Организации, участвующие в поддержке GICR:

Размер и содержание корпуса Размер корпуса на лето 2016 года составляет 19,8 млрд токенов, из которых 49% - от ВКонтакте, 40% - от LiveJournal, еще 4% - от Mail.ru блоги и новости, а также 2% - от российского Журнального зала . Источники, собранные в новостном сегменте: РИА Новости, Regnum , Lenta.ru , Росбалт .ру Тексты снабжены метамаркупом (по дате создания текста, полу, месту и году рождения автора, жанру интернета и др.).); все тексты снабжены автоматическим морфологическим маркированием и лемматизацией. Большая часть собранных текстов относится к 2013-2014 годам создания, хотя в некоторых сегментах, например в русском Журнальном зале, есть некоторые тексты, собранные с 1994 года.

Сегмент корпуса Слова, миллионы Документы
Mail.Ru Блоги 707 9882120
ВКонтакте 9820 193770717
живой журнал 8110 73229158
Зал Русского Журнала 313 56547
Новости (РИА, Регнум, ЛентаРу, Росбалт) 851 2964897
Все корпусы 19801 279903439

GICR является одним из немногих мегакорпоративных проектов на сегодняшний день, что означает, что его доступный размер достигает нескольких миллиардов слов.

Доступ[править]

В настоящее время интерфейс GICR находится в стадии бета-тестирования, поэтому доступ к поиску в корпусах предоставляется и является бесплатным, но доступен для исследователей по запросу.[6]

Смотрите также[править]

Пруф[править]

.webcorpora.ru/