Общий интернет-корпус русского языка
Общий интернет-корпус русского языка (GICR) - это корпус русскоязычных интернет-текстов, который был доступен по запросу через онлайн-интерфейс запросов с 2013 года. Корпус включает в себя насыщенные текстовые Материалы из блогосферы, социальных сетей, крупных новостных источников и литературных журналов.
Цели проекта[править]
Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и исследовательскими группами с использованием материалов, полученных ГМИЦР. В то время как другие корпусные проекты русского языка ориентированы на художественную литературу и отредактированные тексты, общий интернет-корпус предоставляет лингвистам своевременную возможность изучать язык как он есть, со всеми его жаргонными и региональными особенностями.
Корпус дает возможность проводить исследования в следующих областях:
- Лингвистические исследования широкого спектра: диалектологические исследования, изучение распределения слов, изучение языка социальных сетей, изучение влияния гендерных, возрастных и других факторов на язык, частотность слов, фиксированных выражений и различных конструкций, стилистические особенности текстов различных сегментов интернета и др.
- Анализ социальных медиа
- Машинное обучение на основе корпуса для оценки автоматического мечения [1]
В разное время на материале проекта выполнялись студенческие работы и самостоятельные исследования студентами, выпускниками и сотрудниками МГУ, МФТИ, Российского государственного гуманитарного университета, Новосибирского государственного университета, Высшей школы экономики, Российской академии наук, СФУ, ХГУ, СГМП, ИААС МГУ.
Руководители научных проектов:
- Беликов В. - РГГУ, Москва, Россия
- Селегей В. - РГГУ, ABBYY, Москва, Россия
- Sharoff S.-РГГУ, Москва, Россия; Лидский университет, Великобритания [2]
Организации, участвующие в поддержке GICR:
- Российский государственный гуманитарный университет
- Компания ABBYY
- Московский физико-технический институт
- Сколковский институт науки и техники
Размер и содержание корпуса Размер корпуса на лето 2016 года составляет 19,8 млрд токенов, из которых 49% - от ВКонтакте, 40% - от LiveJournal, еще 4% - от Mail.ru блоги и новости, а также 2% - от российского Журнального зала . Источники, собранные в новостном сегменте: РИА Новости, Regnum , Lenta.ru , Росбалт .ру Тексты снабжены метамаркупом (по дате создания текста, полу, месту и году рождения автора, жанру интернета и др.).); все тексты снабжены автоматическим морфологическим маркированием и лемматизацией. Большая часть собранных текстов относится к 2013-2014 годам создания, хотя в некоторых сегментах, например в русском Журнальном зале, есть некоторые тексты, собранные с 1994 года.
Сегмент корпуса | Слова, миллионы | Документы |
---|---|---|
Mail.Ru Блоги | 707 | 9882120 |
ВКонтакте | 9820 | 193770717 |
живой журнал | 8110 | 73229158 |
Зал Русского Журнала | 313 | 56547 |
Новости (РИА, Регнум, ЛентаРу, Росбалт) | 851 | 2964897 |
Все корпусы | 19801 | 279903439 |
GICR является одним из немногих мегакорпоративных проектов на сегодняшний день, что означает, что его доступный размер достигает нескольких миллиардов слов.
Доступ[править]
В настоящее время интерфейс GICR находится в стадии бета-тестирования, поэтому доступ к поиску в корпусах предоставляется и является бесплатным, но доступен для исследователей по запросу.[6]