CiteSeerX

Материал из wikixw
Перейти к навигации Перейти к поиску

CiteSeerx (первоначально называвшийся CiteSeer) - это публичная поисковая система и цифровая библиотека для научных и академических работ, в первую очередь в области компьютерных и информационных наук. CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search. CiteSeer-подобные движки и архивы обычно собирают только документы с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

Цель CiteSeer-улучшить распространение и доступ к академической и научной литературе. Как некоммерческий сервис, который может свободно использоваться любым человеком, он рассматривался как часть движения за открытый доступ, которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer свободно предоставлял открытые архивы инициативных метаданных всех индексированных документов и ссылки индексированных документов, когда это было возможно, на другие источники метаданных, такие как DBLP и портал ACM. Чтобы продвигать открытые данные, CiteSeerx делится своими данными в некоммерческих целях по лицензии Creative Commons.

CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем изменил его обратно.

История[править]

CiteSeer и CiteSeer.IST[править]

CiteSeer был создан исследователями ли Джайлзом, Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в исследовательском институте NEC Research Institute (ныне NEC Labs), Принстон , штат Нью-Джерси, США. Цель CiteSeer состояла в том, чтобы активно сканировать и собирать академические и научные документы в интернете и использовать автономную индексацию цитирования, чтобы разрешить запросы по цитированию или по документу, ранжируя их по влиянию цитирования. В какой-то момент он назывался ResearchIndex.

CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали в себя:

  • Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
  • Статистика цитирования и связанные с ней документы были рассчитаны для всех статей, цитируемых в базе данных, а не только для индексированных статей.
  • Ссылка на ссылку, позволяющая просматривать базу данных с помощью ссылок на цитаты.
  • Контекст цитирования показывает контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи могут сказать об интересующей статье.
  • Соответствующие документы были показаны с использованием показателей цитируемости и словесности, а также активной и постоянно обновляемой библиографии для каждого документа.

CiteSeer был выдан патент США № 6289342 под названием "автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования" 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Патент на продолжение (патент США № 6738780) был подан 16 мая 2001 года и выдан 18 мая 2004 года.

После NEC в 2004 году он был принят как CiteSeer.IST во Всемирной паутине в колледже информационных наук и технологий Пенсильванского государственного университетаи имел более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer были поддержаны в таких университетах, как Массачусетский Технологическийинститут, Цюрихский университет и Национальный университет Сингапура. Однако эти версии CiteSeer оказались трудными в обслуживании и больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в интернете и не имеет доступа к метаданным издателя, он возвращает меньшее количество цитат, чем сайты , такие как Google Scholar, которые имеют метаданные издателя.

CiteSeer не был полностью обновлен с 2005 года из-за ограничений в его архитектурном дизайне. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен по охвату, поскольку он ограничивался документами, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer-CiteSeerX.

CiteSeerx[править]

CiteSeerx заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeerx[2] - это публичная поисковая система, цифровая библиотека и хранилище научных и академических работ, в первую очередь ориентированных на компьютерную и информационную науку.[2] однако в последнее время CiteSeerx расширяется и в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был слабо основан на предыдущей поисковой системе CiteSeer и цифровой библиотеке и построен с новым открытым исходным кодом инфраструктура, SeerSuite, а также новые алгоритмы и их реализации. Он был разработан исследователями доктором Исааком Советиллом и доктором К. ли Джайлзом из Колледжа информационных наук и технологийПенсильванского государственного университета. Он продолжает поддерживать цели, обозначенные CiteSeer, чтобы активно сканировать и собирать академические и научные документы на общедоступной веб-странице и использовать запрос цитирования по цитированиям и ранжирование документов по влиянию цитирования. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзен Гауч, мин-Йен Кан, Прадип Терегауда, Хуан Пабло Фернандес Рамирес, Пучтада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Кармэн, Джек Кэрролл, Джим Янсен и Шуйи Чжэн принимают или принимали активное участие в его развитии. Недавно была введена функция поиска таблиц.[3] он был профинансирован за счет Национальный научный фонд, НАСАи Microsoft Research.

CiteSeerx продолжает оставаться одним из лучших мировых репозиториев и в июле 2010 года был оценен под номером 1. В настоящее время он насчитывает более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат.

CiteSeerx также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время Amazon S3 и rsync.[5] его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступное на SourceForge, но теперь на GitHub) построены на Apache Solr и других инструментах Apache и open source, что позволяет ему быть тестовым стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.

CiteSeerx кэширует некоторые PDF-файлы, которые он отсканировал. Таким образом, каждая страница содержит ссылку DMCA, которая может быть использована для сообщения о нарушениях авторских прав.

Текущие функции[править]

Автоматизированное извлечение информации[править]

CiteSeerx использует автоматизированные инструменты извлечения информации, обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научного документа, таких как название, авторы, аннотация, цитаты и т. д. Как таковые, иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.

Сфокусированное ползание[править]

CiteSeerx просматривает общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитат в CiteSeerx обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.

Использование[править]

CiteSeerx имеет почти 1 миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы просмотров ежедневно. Ежегодная загрузка PDF-файлов документов составила почти 200 миллионов в 2015 году.

Данные[править]

Данные CiteSeer x регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.

Благодаря своей конечной точке OAI-PMH[7] CiteSeerX является открытым архивом, и его содержимое индексируется как институциональный репозиторий в академических поисковыхсистемах , например BASE и Unpaywall consumers.

Другие поисковые системы на основе SeerSuite[править]

Модель CiteSeer была расширена, чтобы охватить академические документы в бизнесе с SmealSearch и в электронном бизнесе с eBizSearch. Однако они не были поддержаны их спонсорами. Более старую версию обеих этих книг можно было найти в Бизсире.IST, но больше не находится в эксплуатации.

Другие похожие на видящих системы поиска и хранения были построены для химии, ChemXSeer и для археологии, ArchSeer. Еще один был построен для роботов.поиск файлов txt, BotSeer. Все они построены на инструменте с открытым исходнымкодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene.

См. также[править]

Читать[править]

/dl.acm.org/doi/10.1145/276675.276685

Пруф[править]

/sourceforge.net/projects/citeseerx/