LLaMA

Материал из wikixw
Перейти к навигации Перейти к поиску

Не путать с ламда.

Другие варианты использования см. в разделе Лама (устранение неоднозначности).
LLaMA (Large Language Model Meta AI) - модель большого языка (LLM), выпущенная компанией Meta AI в феврале 2023 года. Были обучены модели различных размеров, варьирующиеся от 7 миллиардов до 65 миллиардов параметров. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами параметров в большинстве тестов NLP превысила производительность гораздо более крупной GPT-3 (с 175 миллиардами параметров) и что самая большая модель была конкурентоспособной с такими современными моделями, как PaLM и Chinchilla. В то время как наиболее мощные LLM, как правило, были доступны только через ограниченныйAPI (если вообще есть), Meta выпустила весовые коэффициенты модели LLaMA для исследовательского сообщества по некоммерческой лицензии. В течение недели после выпуска LLaMA ее веса были обнародованы через BitTorrent.

Архитектура и обучение[править]

"Разговор между солнцем и Плутоном"

  • Солнце: Привет, Плутон, как дела?
Плутон: Немного. Просто болтаюсь здесь, на краю Солнечной системы.
  • Сан: Да, я как раз собирался поговорить с тобой об этом. Вы больше не планета.
Плутон: Что? Давай, мужик. Это несправедливо.
  • Сан: Мне жаль, но это правда. Ты просто больше не соответствуешь критериям.
Плутон: Это чушь собачья! Я был планетой более 70 лет!
  • Солнце: Все меняется, Плутон. Вы просто должны принять это.
Плутон: К черту тебя, Солнце! К черту тебя и твою дурацкую солнечную систему!
– Вывод 65 миллиардов параметров модели LLaMA после настройки инструкции с учетом запроса "Записать разговор между солнцем и Плутоном"

LLaMA использует архитектуру transformer, стандартную архитектуру для языкового моделирования с 2018 года. Разработчики LLaMA сосредоточили свои усилия на масштабировании производительности модели за счет увеличения объема обучающих данных, а не количества параметров, полагая, что основная стоимость LLM заключается в выводе на основе обученной модели, а не в вычислительных затратах на процесс обучения. Лама прошел обучение на 1,4 триллиона токенов, взятых из общедоступных источников данных, в том числе:

Веб-страницы, очищенные CommonCrawl

  • Открытые репозитории исходного кода с GitHub
Википедия на 20 разных языках
  • Книги из проекта "Гутенберг", находящиеся в общественном достоянии
Исходный код LaTeX для научных статей, загруженный в arXiv
  • Вопросы и ответы с веб-сайтов Stack Exchange

Высвобождение и утечка[править]

О создании LLaMA было объявлено 23 февраля 2023 года с помощью сообщения в блоге и статьи, описывающей обучение, архитектуру и производительность модели.Код, используемый для обучения модели, был публично выпущен под лицензией GPL 3 с открытым исходным кодом. Доступ к весам модели регулировался процессом подачи заявок, причем доступ предоставлялся "в каждом конкретном случае академическим исследователям; тем, кто связан с правительственными организациями, гражданским обществом и академическими кругами; и промышленным исследовательским лабораториям по всему миру".

2 марта 2023 года был загружен торрент, содержащий веса Ламы, со ссылкой на торрент, размещенной на имиджборде 4chan и впоследствии распространяющейся через онлайн-сообщества ИИ. В тот же день был открыт запрос на извлечение в главном репозитории LLaMA с просьбой добавить магнитную ссылку в официальную документацию.4 марта был открыт запрос на добавление ссылок на репозитории HuggingFace, содержащие модель. 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных в запросе на извлечение, охарактеризовав это как "несанкционированное распространение" модели. HuggingFace выполнил просьбы. По состоянию на 17 марта Facebook не ответил на запрос на извлечение, содержащий магнитную ссылку.

Реакция на утечку была разной. Некоторые предположили, что модель будет использоваться для вредоносных целей, таких как более сложный спам. Некоторые отмечают доступность модели, а также тот факт, что уменьшенные версии модели могут быть запущены относительно дешево, предполагая, что это будет способствовать процветанию дополнительных исследовательских разработок. Многочисленные комментаторы, такие как Саймон Уиллисон, сравнивали ламу с стабильной диффузией, модель преобразования текста в изображение, которая, в отличие от сравнительно сложных моделей, предшествовавших ей, была открыто распространена, что привело к быстрому распространению соответствующих инструментов, методов и программного обеспечения.

Применение[править]

Центр исследований базовых моделей Института искусственного интеллекта, ориентированного на человека (HAI) при Стэнфордском университете (CRFM) выпустил Alpaca, обучающий рецепт, основанный на модели LLaMA 7B, в котором используется метод "самоинструкции" для настройки обучения, приобретающий возможности, сопоставимые с OpenAI GPT-3.5 series text-davinci-модель 003 по скромной цене.

См.также[править]

[[]]

Пруф[править]

youtube.com/watch?v=6soofz98PGk