CiteSeerX: различия между версиями

Материал из wikixw
Перейти к навигации Перейти к поиску
(Новая страница: «CiteSeerx (первоначально называвшийся CiteSeer) - это публичная поисковая система и цифровая биб…»)
 
Нет описания правки
 
Строка 1: Строка 1:
CiteSeerx (первоначально называвшийся CiteSeer) - это публичная поисковая система и цифровая библиотека для научных и академических работ, в первую очередь в области компьютерных и информационных наук. CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search.[цитата необходима] CiteSeer-подобные движки и архивы обычно собирают только документы с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.
CiteSeerx (первоначально называвшийся CiteSeer) - это публичная поисковая система и цифровая библиотека для научных и академических работ, в первую очередь в области компьютерных и информационных наук. CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search. CiteSeer-подобные движки и архивы обычно собирают только документы с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.


Цель CiteSeer-улучшить распространение и доступ к академической и научной литературе. Как некоммерческий сервис, который может свободно использоваться любым человеком, он рассматривался как часть движения за открытый доступ, которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer свободно предоставлял открытые архивы инициативных метаданных всех индексированных документов и ссылки индексированных документов, когда это было возможно, на другие источники метаданных, такие как DBLP и портал ACM. Чтобы продвигать открытые данные, CiteSeerx делится своими данными в некоммерческих целях по лицензии Creative Commons.
Цель CiteSeer-улучшить распространение и доступ к академической и научной литературе. Как некоммерческий сервис, который может свободно использоваться любым человеком, он рассматривался как часть движения за открытый доступ, которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer свободно предоставлял открытые архивы инициативных метаданных всех индексированных документов и ссылки индексированных документов, когда это было возможно, на другие источники метаданных, такие как DBLP и портал ACM. Чтобы продвигать открытые данные, CiteSeerx делится своими данными в некоммерческих целях по лицензии Creative Commons.
Строка 5: Строка 5:
CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем изменил его обратно.
CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем изменил его обратно.


==История
==История==
CiteSeer и CiteSeer.IST
===CiteSeer и CiteSeer.IST===


CiteSeer был создан исследователями ли Джайлзом, Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в исследовательском институте NEC Research Institute (ныне NEC Labs), Принстон , штат Нью-Джерси, США. Цель CiteSeer состояла в том, чтобы активно сканировать и собирать академические и научные документы в интернете и использовать автономную индексацию цитирования, чтобы разрешить запросы по цитированию или по документу, ранжируя их по влиянию цитирования. В какой-то момент он назывался ResearchIndex.
CiteSeer был создан исследователями ли Джайлзом, Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в исследовательском институте NEC Research Institute (ныне NEC Labs), Принстон , штат Нью-Джерси, США. Цель CiteSeer состояла в том, чтобы активно сканировать и собирать академические и научные документы в интернете и использовать автономную индексацию цитирования, чтобы разрешить запросы по цитированию или по документу, ранжируя их по влиянию цитирования. В какой-то момент он назывался ResearchIndex.
Строка 12: Строка 12:
CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали в себя:
CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали в себя:


    Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
    Статистика цитирования и связанные с ней документы были рассчитаны для всех статей, цитируемых в базе данных, а не только для индексированных статей.
*    Статистика цитирования и связанные с ней документы были рассчитаны для всех статей, цитируемых в базе данных, а не только для индексированных статей.
    Ссылка на ссылку, позволяющая просматривать базу данных с помощью ссылок на цитаты.
*    Ссылка на ссылку, позволяющая просматривать базу данных с помощью ссылок на цитаты.
    Контекст цитирования показывает контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи могут сказать об интересующей статье.
*    Контекст цитирования показывает контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи могут сказать об интересующей статье.
    Соответствующие документы были показаны с использованием показателей цитируемости и словесности, а также активной и постоянно обновляемой библиографии для каждого документа.
*    Соответствующие документы были показаны с использованием показателей цитируемости и словесности, а также активной и постоянно обновляемой библиографии для каждого документа.


CiteSeer был выдан патент США № 6289342 под названием "автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования" 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Патент на продолжение (патент США № 6738780) был подан 16 мая 2001 года и выдан 18 мая 2004 года.
CiteSeer был выдан патент США № 6289342 под названием "автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования" 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Патент на продолжение (патент США № 6738780) был подан 16 мая 2001 года и выдан 18 мая 2004 года.
Строка 23: Строка 23:


CiteSeer не был полностью обновлен с 2005 года из-за ограничений в его архитектурном дизайне. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен по охвату, поскольку он ограничивался документами, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer-CiteSeerX.
CiteSeer не был полностью обновлен с 2005 года из-за ограничений в его архитектурном дизайне. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен по охвату, поскольку он ограничивался документами, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer-CiteSeerX.
CiteSeerx
===CiteSeerx===


CiteSeerx заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeerx[2] - это публичная поисковая система, цифровая библиотека и хранилище научных и академических работ, в первую очередь ориентированных на компьютерную и информационную науку.[2] однако в последнее время CiteSeerx расширяется и в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был слабо основан на предыдущей поисковой системе CiteSeer и цифровой библиотеке и построен с новым открытым исходным кодом инфраструктура, SeerSuite, а также новые алгоритмы и их реализации. Он был разработан исследователями доктором Исааком Советиллом и доктором К. ли Джайлзом из Колледжа информационных наук и технологийПенсильванского государственного университета. Он продолжает поддерживать цели, обозначенные CiteSeer, чтобы активно сканировать и собирать академические и научные документы на общедоступной веб-странице и использовать запрос цитирования по цитированиям и ранжирование документов по влиянию цитирования. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзен Гауч, мин-Йен Кан, Прадип Терегауда, Хуан Пабло Фернандес Рамирес, Пучтада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Кармэн, Джек Кэрролл, Джим Янсен и Шуйи Чжэн принимают или принимали активное участие в его развитии. Недавно была введена функция поиска таблиц.[3] он был профинансирован за счет Национальный научный фонд, НАСАи Microsoft Research.
CiteSeerx заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeerx[2] - это публичная поисковая система, цифровая библиотека и хранилище научных и академических работ, в первую очередь ориентированных на компьютерную и информационную науку.[2] однако в последнее время CiteSeerx расширяется и в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был слабо основан на предыдущей поисковой системе CiteSeer и цифровой библиотеке и построен с новым открытым исходным кодом инфраструктура, SeerSuite, а также новые алгоритмы и их реализации. Он был разработан исследователями доктором Исааком Советиллом и доктором К. ли Джайлзом из Колледжа информационных наук и технологийПенсильванского государственного университета. Он продолжает поддерживать цели, обозначенные CiteSeer, чтобы активно сканировать и собирать академические и научные документы на общедоступной веб-странице и использовать запрос цитирования по цитированиям и ранжирование документов по влиянию цитирования. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзен Гауч, мин-Йен Кан, Прадип Терегауда, Хуан Пабло Фернандес Рамирес, Пучтада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Кармэн, Джек Кэрролл, Джим Янсен и Шуйи Чжэн принимают или принимали активное участие в его развитии. Недавно была введена функция поиска таблиц.[3] он был профинансирован за счет Национальный научный фонд, НАСАи Microsoft Research.


CiteSeerx продолжает оставаться одним из лучших мировых репозиториев и в июле 2010 года был оценен под номером 1.[4] В настоящее время он насчитывает более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат.
CiteSeerx продолжает оставаться одним из лучших мировых репозиториев и в июле 2010 года был оценен под номером 1. В настоящее время он насчитывает более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат.


CiteSeerx также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время Amazon S3 и rsync.[5] его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступное на SourceForge, но теперь на GitHub) построены на Apache Solr и других инструментах Apache и open source, что позволяет ему быть тестовым стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.
CiteSeerx также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время Amazon S3 и rsync.[5] его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступное на SourceForge, но теперь на GitHub) построены на Apache Solr и других инструментах Apache и open source, что позволяет ему быть тестовым стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.


CiteSeerx кэширует некоторые PDF-файлы, которые он отсканировал. Таким образом, каждая страница содержит ссылку DMCA, которая может быть использована для сообщения о нарушениях авторских прав.[6]
CiteSeerx кэширует некоторые PDF-файлы, которые он отсканировал. Таким образом, каждая страница содержит ссылку DMCA, которая может быть использована для сообщения о нарушениях авторских прав.
Текущие функции
==Текущие функции==
Автоматизированное извлечение информации
===Автоматизированное извлечение информации===


CiteSeerx использует автоматизированные инструменты извлечения информации, обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научного документа, таких как название, авторы, аннотация, цитаты и т. д. Как таковые, иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.
CiteSeerx использует автоматизированные инструменты извлечения информации, обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научного документа, таких как название, авторы, аннотация, цитаты и т. д. Как таковые, иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.
Сфокусированное ползание
===Сфокусированное ползание===


CiteSeerx просматривает общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитат в CiteSeerx обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.
CiteSeerx просматривает общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитат в CiteSeerx обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.
Использование
===Использование===


CiteSeerx имеет почти 1 миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы просмотров ежедневно. Ежегодная загрузка PDF-файлов документов составила почти 200 миллионов в 2015 году.
CiteSeerx имеет почти 1 миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы просмотров ежедневно. Ежегодная загрузка PDF-файлов документов составила почти 200 миллионов в 2015 году.
Данные
===Данные===


Данные CiteSeer x регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.
Данные CiteSeer x регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.
Строка 49: Строка 49:
==Другие поисковые системы на основе SeerSuite==
==Другие поисковые системы на основе SeerSuite==


Модель CiteSeer была расширена, чтобы охватить академические документы в бизнесе с SmealSearch и в электронном бизнесе с eBizSearch. Однако они не были поддержаны их спонсорами. Более старую версию обеих этих книг можно было найти в Бизсире.IST, но больше не находится в эксплуатации.
Модель CiteSeer была расширена, чтобы охватить академические документы в бизнесе с SmealSearch и в электронном бизнесе с eBizSearch. Однако они не были поддержаны их спонсорами. Более старую версию обеих этих книг можно было найти в Бизсире.'''IST''', но больше не находится в эксплуатации.


Другие похожие на видящих системы поиска и хранения были построены для химии, ChemXSeer и для археологии, ArchSeer. Еще один был построен для роботов.поиск файлов txt, BotSeer. Все они построены на инструменте с открытым исходнымкодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene.
Другие похожие на видящих системы поиска и хранения были построены для химии, ChemXSeer и для археологии, ArchSeer. Еще один был построен для роботов.поиск файлов txt, BotSeer. Все они построены на инструменте с открытым исходнымкодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene.

Текущая версия от 17:38, 7 ноября 2020

CiteSeerx (первоначально называвшийся CiteSeer) - это публичная поисковая система и цифровая библиотека для научных и академических работ, в первую очередь в области компьютерных и информационных наук. CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search. CiteSeer-подобные движки и архивы обычно собирают только документы с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

Цель CiteSeer-улучшить распространение и доступ к академической и научной литературе. Как некоммерческий сервис, который может свободно использоваться любым человеком, он рассматривался как часть движения за открытый доступ, которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer свободно предоставлял открытые архивы инициативных метаданных всех индексированных документов и ссылки индексированных документов, когда это было возможно, на другие источники метаданных, такие как DBLP и портал ACM. Чтобы продвигать открытые данные, CiteSeerx делится своими данными в некоммерческих целях по лицензии Creative Commons.

CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем изменил его обратно.

История[править]

CiteSeer и CiteSeer.IST[править]

CiteSeer был создан исследователями ли Джайлзом, Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в исследовательском институте NEC Research Institute (ныне NEC Labs), Принстон , штат Нью-Джерси, США. Цель CiteSeer состояла в том, чтобы активно сканировать и собирать академические и научные документы в интернете и использовать автономную индексацию цитирования, чтобы разрешить запросы по цитированию или по документу, ранжируя их по влиянию цитирования. В какой-то момент он назывался ResearchIndex.

CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали в себя:

  • Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
  • Статистика цитирования и связанные с ней документы были рассчитаны для всех статей, цитируемых в базе данных, а не только для индексированных статей.
  • Ссылка на ссылку, позволяющая просматривать базу данных с помощью ссылок на цитаты.
  • Контекст цитирования показывает контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи могут сказать об интересующей статье.
  • Соответствующие документы были показаны с использованием показателей цитируемости и словесности, а также активной и постоянно обновляемой библиографии для каждого документа.

CiteSeer был выдан патент США № 6289342 под названием "автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования" 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Патент на продолжение (патент США № 6738780) был подан 16 мая 2001 года и выдан 18 мая 2004 года.

После NEC в 2004 году он был принят как CiteSeer.IST во Всемирной паутине в колледже информационных наук и технологий Пенсильванского государственного университетаи имел более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer были поддержаны в таких университетах, как Массачусетский Технологическийинститут, Цюрихский университет и Национальный университет Сингапура. Однако эти версии CiteSeer оказались трудными в обслуживании и больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в интернете и не имеет доступа к метаданным издателя, он возвращает меньшее количество цитат, чем сайты , такие как Google Scholar, которые имеют метаданные издателя.

CiteSeer не был полностью обновлен с 2005 года из-за ограничений в его архитектурном дизайне. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен по охвату, поскольку он ограничивался документами, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer-CiteSeerX.

CiteSeerx[править]

CiteSeerx заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeerx[2] - это публичная поисковая система, цифровая библиотека и хранилище научных и академических работ, в первую очередь ориентированных на компьютерную и информационную науку.[2] однако в последнее время CiteSeerx расширяется и в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был слабо основан на предыдущей поисковой системе CiteSeer и цифровой библиотеке и построен с новым открытым исходным кодом инфраструктура, SeerSuite, а также новые алгоритмы и их реализации. Он был разработан исследователями доктором Исааком Советиллом и доктором К. ли Джайлзом из Колледжа информационных наук и технологийПенсильванского государственного университета. Он продолжает поддерживать цели, обозначенные CiteSeer, чтобы активно сканировать и собирать академические и научные документы на общедоступной веб-странице и использовать запрос цитирования по цитированиям и ранжирование документов по влиянию цитирования. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзен Гауч, мин-Йен Кан, Прадип Терегауда, Хуан Пабло Фернандес Рамирес, Пучтада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Кармэн, Джек Кэрролл, Джим Янсен и Шуйи Чжэн принимают или принимали активное участие в его развитии. Недавно была введена функция поиска таблиц.[3] он был профинансирован за счет Национальный научный фонд, НАСАи Microsoft Research.

CiteSeerx продолжает оставаться одним из лучших мировых репозиториев и в июле 2010 года был оценен под номером 1. В настоящее время он насчитывает более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат.

CiteSeerx также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время Amazon S3 и rsync.[5] его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступное на SourceForge, но теперь на GitHub) построены на Apache Solr и других инструментах Apache и open source, что позволяет ему быть тестовым стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.

CiteSeerx кэширует некоторые PDF-файлы, которые он отсканировал. Таким образом, каждая страница содержит ссылку DMCA, которая может быть использована для сообщения о нарушениях авторских прав.

Текущие функции[править]

Автоматизированное извлечение информации[править]

CiteSeerx использует автоматизированные инструменты извлечения информации, обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научного документа, таких как название, авторы, аннотация, цитаты и т. д. Как таковые, иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.

Сфокусированное ползание[править]

CiteSeerx просматривает общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитат в CiteSeerx обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.

Использование[править]

CiteSeerx имеет почти 1 миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы просмотров ежедневно. Ежегодная загрузка PDF-файлов документов составила почти 200 миллионов в 2015 году.

Данные[править]

Данные CiteSeer x регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.

Благодаря своей конечной точке OAI-PMH[7] CiteSeerX является открытым архивом, и его содержимое индексируется как институциональный репозиторий в академических поисковыхсистемах , например BASE и Unpaywall consumers.

Другие поисковые системы на основе SeerSuite[править]

Модель CiteSeer была расширена, чтобы охватить академические документы в бизнесе с SmealSearch и в электронном бизнесе с eBizSearch. Однако они не были поддержаны их спонсорами. Более старую версию обеих этих книг можно было найти в Бизсире.IST, но больше не находится в эксплуатации.

Другие похожие на видящих системы поиска и хранения были построены для химии, ChemXSeer и для археологии, ArchSeer. Еще один был построен для роботов.поиск файлов txt, BotSeer. Все они построены на инструменте с открытым исходнымкодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene.

См. также[править]

Читать[править]

/dl.acm.org/doi/10.1145/276675.276685

Пруф[править]

/sourceforge.net/projects/citeseerx/