GPT-3

Материал из wikixw
Перейти к навигации Перейти к поиску

Generative Pre-trained Transformer 3 (GPT-3) - это авторегрессионная языковая модель, выпущенная в 2020 году, которая использует глубокое обучение для создания текста, похожего на человеческий. Учитывая начальный текст в качестве подсказки, он создаст текст, который продолжает подсказку.

Архитектура представляет собой трансформаторную сеть только для декодера с контекстом длиной 2048 токенов и беспрецедентным размером в 175 миллиардов параметров, для хранения которых требуется 800 ГБ. Модель была обучена с использованием генеративного предварительного обучения; она обучена предсказывать, какой следующий токен будет основан на предыдущих токенах. Модель продемонстрировала сильное обучение с нулевым выстрелом и несколькими выстрелами по многим задачам. Авторы описали, как показатели понимания языка в обработке естественного языка (NLP) были улучшены в GPT-n посредством процесса "генеративной предварительной подготовки языковой модели на разнообразном корпусе немаркированного текста с последующей дискриминационной точной настройкой для каждой конкретной задачи". Это устранило необходимость в человеческом наблюдении и трудоемкой ручной маркировке.

Это модель прогнозирования языка третьего поколения в серии GPT, преемница GPT-2, созданная OpenAI, исследовательской лабораторией искусственного интеллекта из Сан-Франциско. GPT-3, который был представлен в мае 2020 года и находился в стадии бета-тестирования по состоянию на июль 2020 года, является частью тенденции в системах обработки естественного языка (NLP) с предварительно обученными языковыми представлениями.

Качество текста, генерируемого GPT-3, настолько высокое, что может быть трудно определить, был ли он написан человеком, что имеет как преимущества, так и риски. Тридцать один исследователь и инженер OpenAI 28 мая 2020 года представили оригинальный документ, посвященный GPT-3.

В своей статье они предупредили о потенциальных опасностях GPT-3 и призвали к проведению исследований для снижения риска. Дэвид Чалмерс, австралийский философ, описал GPT-3 как "одну из самых интересных и важных систем искусственного интеллекта, когда-либо созданных".[6] Обзор апреля 2022 года вNew York Times описала возможности GPT-3 как способность писать оригинальную прозу со скоростью, эквивалентной человеческой.

22 сентября 2020 года Microsoft объявила, что лицензировала "эксклюзивное" использование GPT-3; другие пользователи по-прежнему могут использовать общедоступный API для получения выходных данных, но только Microsoft имеет доступ к базовой модели GPT-3.

Предыстория[править]

Дополнительная информация: GPT-2 § Справочная информация

По мнению The Economist, усовершенствованные алгоритмы, мощные компьютеры и увеличение объема оцифрованных данных вызвали революцию в машинном обучении, а новые методы в 2010-х годах привели к "быстрому улучшению задач", включая манипулирование языком. Модели программного обеспечения обучаются обучению с использованием тысяч или миллионов примеров в "структуре ... свободно основан на нейронной архитектуре мозга ". Одна архитектура, используемая в обработке естественного языка (NLP), представляет собой нейронную сеть, основанную на модели глубокого обучения, которая была впервые представлена в 2017 году — Transformer. Модели GPT-n представляют собой основанные на преобразователях архитектуры нейронных сетей с глубоким обучением. Существует ряд систем NLP, способных обрабатывать, анализировать, организовывать, соединять и сопоставлять вводимый текст, а также правильно отвечать на вопросы.

11 июня 2018 года исследователи и инженеры OpenAI опубликовали свою оригинальную статью о генеративных моделях — языковых моделях — системах искусственного интеллекта, — которые можно предварительно обучить огромному и разнообразному корпусу текста с помощью наборов данных, в процессе, который они назвали генеративным предварительным обучением (GP). Авторыописано, как показатели понимания языка в обработке естественного языка (NLP) были улучшены в GPT-n посредством процесса "генеративной предварительной подготовки языковой модели на разнообразном корпусе немаркированного текста с последующей дискриминационной точной настройкой для каждой конкретной задачи." Это устранило необходимость в человеческом наблюдении и трудоемкой ручной маркировке.

В феврале 2020 года Microsoft представила Turing Natural Language Generation (T-NLG), которая, как утверждалось, была "самой большой языковой моделью, когда-либо опубликованной с 17 миллиардами параметров". Она лучше, чем любая другая языковая модель, справлялась с различными задачами, включая обобщение текстов и ответы на вопросы.

Обучение и возможности[править]

Образец студенческого эссе по педагогике, написанного GPT-3

Концепция “стилей обучения” проблематична, поскольку она не учитывает процессы, посредством которых формируются стили обучения. Некоторые студенты могут выработать определенный стиль обучения, потому что у них был особый опыт. Другие могут выработать особый стиль обучения, пытаясь приспособиться к учебной среде, которая не очень хорошо соответствует их потребностям в обучении. В конечном счете, нам нужно понять взаимодействие между стилями обучения, факторами окружающей среды и личными факторами, а также то, как они влияют на то, как мы учимся, и на то, какие виды обучения мы получаем.

– Текст, созданный Майком Шарплзом

28 мая 2020 года препринт arXiv, подготовленный группой из 31 инженера и исследователей OpenAI, описал разработку GPT-3, "современной языковой модели третьего поколения". Команда увеличила возможности GPT-3 более чем на два порядка по сравнению с его предшественником, GPT-2, сделав GPT-3 крупнейшей на сегодняшний день нерасчлененной языковой моделью. (В разреженной модели многие из ее параметров имеют постоянное значение, поэтому, даже если общее количество параметров больше, значимой информации меньше.)  Поскольку GPT-3 конструктивно аналогичен своим предшественникам, его большая точность объясняется увеличенной производительностью и большим количеством параметров. Возможности GPT-3 в десять раз больше, чем у NLG от Microsoft Turing, следующей по величине модели NLP, известной в то время.

Шестьдесят процентов взвешенного набора данных предварительной подготовки для GPT-3 поступает из отфильтрованной версии Common Crawl, состоящей из 410 миллиардов токенов, закодированных в байтовых парах. Другими источниками являются 19 миллиардов токенов из WebText2, что составляет 22% от взвешенного общего количества, 12 миллиардов токенов из Books1, что составляет 8%, 55 миллиардов токенов из Books2, что составляет 8%, и 3 миллиарда токенов из Википедии, что составляет 3%. GPT-3 был обучен насотни миллиардов слов, а также способен кодировать в CSS, JSX и Python, среди прочих.

Данные обучения GPT-3
Набор данных # токены Пропорция в рамках обучения
Обычный обход 410 миллиардов 60%
WebText2 19 миллиардов 22%
Книги 1 12 миллиардов 8%
Книги 2 55 миллиардов 8%
Википедия 3 миллиарда 3%

Поскольку обучающие данные GPT-3 были всеобъемлющими, они не требуют дальнейшего обучения для выполнения отдельных языковых задач. Обучающие данные иногда содержат токсичный язык, и GPT-3 иногда генерирует токсичный язык в результате имитации своих обучающих данных. Исследование, проведенное Вашингтонским университетом, показало, что GPT-3 создает токсичный язык на уровне токсичности, сопоставимом с аналогичными моделями обработки естественного языка GPT-2 и CTRL. OpenAI внедрил несколько стратегий для ограничения количества токсичных выражений, генерируемых GPT-3. В результате GPT-3 произвел менее токсичный язык по сравнению со своей предыдущей моделью, GPT-1, хотя он произвел как больше поколений, так и более высокую токсичность токсичного языка по сравнению с CTRL Wiki, языковой моделью, полностью обученной на данных Википедии.

11 июня 2020 года OpenAI объявила, что пользователи могут запрашивать доступ к своему удобному API GPT-3 - "набору инструментов машинного обучения" — чтобы помочь OpenAI "изучить сильные и слабые стороны" этой новой технологии.В приглашении описывалось, как у этого API был универсальный интерфейс ввода и вывода текста, который может выполнять практически "любую задачу на английском языке" вместо обычного варианта использования. По словам одного пользователя, у которого был доступ к закрытой ранней версии OpenAI GPT-3 API, GPT-3 был "устрашающе хорош" в написании "удивительно связного текста" всего с несколькими простыми подсказками.[20] В первоначальном эксперименте 80 испытуемых из США попросили оценить, были ли короткие статьи ~ 200 слов написаны людьми или GPT-3. Участники оценивали правильно в 52% случаев, что лишь немного лучше, чем случайное угадывание.

18 ноября 2021 года OpenAI объявила, что были приняты достаточные меры предосторожности, чтобы доступ к ее API был неограниченным. OpenAI предоставил разработчикам инструмент модерации контента, который помогает им соблюдать политику OpenAI в отношении контента. 27 января 2022 года OpenAI объявила, что ее новейшие языковые модели GPT-3, совместно называемые InstructGPT, теперь являются языковой моделью по умолчанию, используемой в их API. Согласно OpenAI, InstructGPT создавал контент, который лучше соответствовал намерениям пользователя, лучше следуя инструкциям, генерируя меньше выдуманных фактов и создавая несколько менее токсичный контент.

Поскольку GPT-3 может "генерировать новостные статьи, которые специалистам по оценке людей трудно отличить от статей, написанных людьми", GPT-3 обладает "потенциалом для продвижения как полезных, так и вредных применений языковых моделей". В своей статье от 28 мая 2020 года исследователиподробно описаны потенциальные "вредные последствия GPT-3", которые включают "дезинформацию, спам, фишинг, злоупотребление правовыми и государственными процедурами, мошенническое написание академических эссе и использование предлогов социальной инженерии". Авторы обращают внимание на эти опасности, призывая к проведению исследований по снижению рисков.

GPT-3 способен выполнять обучение с нулевым выстрелом, с несколькими выстрелами и с одним выстрелом.

В июне 2022 года Альмира Османович Тунстрем написала, что GPT-3 был основным автором статьи о себе, что они представили ее для публикации и что она была предварительно опубликована в ожидании завершения ее рецензирования.

GPT-3.5[править]

15 марта 2022 года OpenAI сделала доступными новые версии GPT-3 и Codex в своем API с возможностями редактирования и вставки под именами "текст-davinci-003" и "код-davinci-002". Эти модели были описаны как более мощные, чем предыдущие версии, и обучались на данных до июня 2021 года. 30 ноября 2022 года OpenAI начал называть эти модели принадлежащими к серии "GPT-3.5" и выпустил ChatGPT, что было нормально -настроен на модели из серии GPT-3.5.

Прием[править]

Приложения[править]

GPT-3, в частности модель Codex, является основой для GitHub Copilot, программного обеспечения для завершения и генерации кода, которое может использоваться в различных редакторах кода и IDE.

  • GPT-3 используется в некоторых продуктах Microsoft для перевода обычного языка в формальный компьютерный код.
  • GPT-3 использовался в CodexDB для генерации специфичного для запроса кода для обработки SQL.
  • GPT-3 использовался Джейсоном Рорером в проекте чат-бота в стиле ретро под названием "Project December", который доступен онлайн и позволяет пользователям общаться с несколькими ИИ, используя технологию GPT-3.
  • GPT-3 использовался The Guardian для написания статьи о том, что ИИ безвреден для людей. На основе некоторых идей было подготовлено восемь различных эссе, которые в конечном итоге были объединены в одну статью[37].
  • GPT-3 использовался в AI Dungeon, который генерирует текстовые приключенческие игры. Позже он был заменен конкурирующей моделью после того, как OpenAI изменил свою политику в отношении создаваемого контента.[38]
  • GPT-3 используется в Copy.ai , приложение для копирайтинга с искусственным интеллектом для маркетологов и владельцев бизнеса.[40]
  • GPT-3 используется в Jasper.ai , генератор контента, предназначенный для помощи маркетологам и копирайтерам.
  • GPT-3 используется в Hypotenuse AI, приложении для создания контента, и сочетается с их собственной запатентованной технологией для написания фактического контента для маркетологов и бизнеса.
  • Исследование, проведенное университетом Дрексела в 2022 году, показало, что системы, основанные на GPT-3, могут использоваться для выявления ранних признаков болезни Альцгеймера.[44][45]

Отзывы[править]

В обзоре, опубликованном в июле 2020 года в New York Times, Фархад Манджу сказал, что способность GPT-3 генерировать компьютерный код, поэзию и прозу не просто "удивительна", "пугающая" и "унижающая", но и "более чем немного пугающая". Daily Nous представила серию статей девяти философов о GPT-3. Австралийский философ Дэвид Чалмерс описал GPT-3 как "одну из самых интересных и важных систем искусственного интеллекта, когда-либо созданных". В обзоре Wired говорилось, что GPT-3 "вызывает дрожь по всей Силиконовой долине". В National Law Review говорится, что GPT-3 является "впечатляющим шагом в более широком процессе", поскольку OpenAI и другие находят "полезные приложения для всей этой мощи", продолжая "работать над более общим интеллектом".

  • В статье MIT Technology Review, написанной критиком глубокого обучения Гэри Маркусом, говорится, что в GPT-3 "понимание мира часто серьезно искажено, что означает, что вы никогда не сможете по-настоящему доверять тому, что он говорит". По словам авторов, GPT-3 моделирует отношениямежду словами, не понимая значения каждого слова.
Джером Песенти, глава лаборатории искусственного интеллекта Facebook, сказал, что GPT-3 "небезопасен", указывая на сексистские, расистские и другие предвзятые и негативные высказывания, генерируемые системой, когда ее просили обсудить евреев, женщин, чернокожих и Холокост.

Nabla, французский стартап, специализирующийся на медицинских технологиях, протестировал GPT-3 в качестве медицинского чат-бота, хотя сам OpenAI предостерегал от такого использования. Как и ожидалось, GPT-3 показал несколько ограничений. Например, во время тестирования ответов GPT-3 о проблемах с психическим здоровьем ИИ посоветовал симулируемому пациенту совершить самоубийство.

Ноам Хомский выразил свой скептицизм по поводу научной ценности GPT-3: "Это не языковая модель. Это работает так же хорошо для невозможных языков, как и для реальных языков. Поэтому он опровергается, если он предназначен в качестве языковой модели, по обычным научным критериям. [...] Возможно, это полезно для какой-то цели, но, похоже, это ничего не говорит нам о языке или познании в целом ".
Лучано Флориди и Массимо Чириатти подчеркнули риск "дешевого производства хороших семантических артефактов".
Сам Сэм Альтман из OpenAI раскритиковал то, что он назвал "шумихой вокруг GPT-3", признав, что GPT-3 "имеет серьезные недостатки и иногда допускает очень глупые ошибки... ИИ собирается изменить мир, но GPT-3 - это всего лишь очень ранний проблеск ".

Критика[править]

Разработчик GPT-3, OpenAI, изначально был основан как некоммерческая организация в 2015 году. В 2019 году OpenAI не стала публично публиковать модель-предшественницу GPT-3, отказавшись от предыдущей практики OpenAI с открытым исходным кодом, сославшись на опасения, что модель увековечит фейковые новости. В итоге OpenAI выпустила версию GPT-2, размер которой составлял 8% от размера оригинальной модели.[58] В том же году OpenAI была преобразована в коммерческую компанию. В 2020 году Microsoft объявила, что компания получила эксклюзивное лицензирование GPT-3 для продуктов и услуг Microsoft после многомиллиардных инвестиций в OpenAI. Соглашение разрешает OpenAI предлагать общедоступный API, чтобы пользователи могли отправлять текст в GPT-3 для получения выходных данных модели, но только Microsoft будет иметь доступ к исходному коду GPT-3.

Большие языковые модели, такие как GPT-3, подверглись критике со стороны нескольких исследователей этики искусственного интеллекта Google за воздействие обучения и хранения моделей на окружающую среду, подробно изложенное в статье, написанной Тимнитом Гебру и Эмили М. Бендер в 2021 году.

Растущий [когда?]использование технологий автоматизированного письма, основанных на GPT-3 и других языковых генераторах, вызвало обеспокоенность по поводу академической честности и повысило ставки на то, как университеты и школы будут оценивать, что представляет собой академическое нарушение, такое как плагиат.

GPT был создан на основе данных Common Crawl dataset, конгломерата защищенных авторским правом статей, интернет-сообщений, веб-страниц и книг, собранных с 60 миллионов доменов в течение 12 лет. TechCrunch сообщает, что эти учебные данные включают защищенные авторским правом материалы из BBC, New York Times, Reddit, полные тексты онлайн-книг и многое другое В своем ответе на запрос 2019 года о комментариях по защите интеллектуальной собственности для инноваций в области искусственного интеллекта отУправление по патентам и товарным знакам США (ВПТЗ США), OpenAI утверждало, что "согласно действующему законодательству, обучение систем ИИ [таких как его модели GPT] представляет собой добросовестное использование", но что "учитывая отсутствие прецедентного права по этому вопросу, OpenAI и другие разработчики ИИ, такие как мы, сталкиваются со значительной правовой неопределенностью и расходами на соблюдение."

Смотрите также[править]

BERT (языковая модель)

Пруф[править]

openai.com/blog/openai-api/