Общий интернет-корпус русского языка

Общий интернет-корпус русского языка (GICR) - это корпус русскоязычных интернет-текстов, который был доступен по запросу через онлайн-интерфейс запросов с 2013 года. Корпус включает в себя насыщенные текстовые Материалы из блогосферы, социальных сетей, крупных новостных источников и литературных журналов.

Цели проекта[править]

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и исследовательскими группами с использованием материалов, полученных ГМИЦР. В то время как другие корпусные проекты русского языка ориентированы на художественную литературу и отредактированные тексты, общий интернет-корпус предоставляет лингвистам своевременную возможность изучать язык как он есть, со всеми его жаргонными и региональными особенностями.

Корпус дает возможность проводить исследования в следующих областях:

Лингвистические исследования широкого спектра: диалектологические исследования, изучение распределения слов, изучение языка социальных сетей, изучение влияния гендерных, возрастных и других факторов на язык, частотность слов, фиксированных выражений и различных конструкций, стилистические особенности текстов различных сегментов интернета и др.
Анализ социальных медиа
Машинное обучение на основе корпуса для оценки автоматического мечения [1]

В разное время на материале проекта выполнялись студенческие работы и самостоятельные исследования студентами, выпускниками и сотрудниками МГУ, МФТИ, Российского государственного гуманитарного университета, Новосибирского государственного университета, Высшей школы экономики, Российской академии наук, СФУ, ХГУ, СГМП, ИААС МГУ.

Руководители научных проектов:

Беликов В. - РГГУ, Москва, Россия
Селегей В. - РГГУ, ABBYY, Москва, Россия
Sharoff S.-РГГУ, Москва, Россия; Лидский университет, Великобритания [2]

Организации, участвующие в поддержке GICR:

Российский государственный гуманитарный университет
Компания ABBYY
Московский физико-технический институт
Сколковский институт науки и техники

Размер и содержание корпуса Размер корпуса на лето 2016 года составляет 19,8 млрд токенов, из которых 49% - от ВКонтакте, 40% - от LiveJournal, еще 4% - от Mail.ru блоги и новости, а также 2% - от российского Журнального зала . Источники, собранные в новостном сегменте: РИА Новости, Regnum , Lenta.ru , Росбалт .ру Тексты снабжены метамаркупом (по дате создания текста, полу, месту и году рождения автора, жанру интернета и др.).); все тексты снабжены автоматическим морфологическим маркированием и лемматизацией. Большая часть собранных текстов относится к 2013-2014 годам создания, хотя в некоторых сегментах, например в русском Журнальном зале, есть некоторые тексты, собранные с 1994 года.

Сегмент корпуса	Слова, миллионы	Документы
Mail.Ru Блоги	707	9882120
ВКонтакте	9820	193770717
живой журнал	8110	73229158
Зал Русского Журнала	313	56547
Новости (РИА, Регнум, ЛентаРу, Росбалт)	851	2964897
Все корпусы	19801	279903439

GICR является одним из немногих мегакорпоративных проектов на сегодняшний день, что означает, что его доступный размер достигает нескольких миллиардов слов.

Доступ[править]

В настоящее время интерфейс GICR находится в стадии бета-тестирования, поэтому доступ к поиску в корпусах предоставляется и является бесплатным, но доступен для исследователей по запросу.[6]

Смотрите также[править]

Пруф[править]

.webcorpora.ru/

Общий интернет-корпус русского языка

Содержание

Цели проекта[править]

Доступ[править]

Смотрите также[править]

Пруф[править]

Навигация

Общий интернет-корпус русского языка

Цели проекта[править]

Доступ[править]

Смотрите также[править]

Пруф[править]

Навигация

Поиск