В июне 2018 года исследователи компании OpenAI, базирующейся в Калифорнии, опубликовали исследование о “Генеративном предварительно обученном трансформере” (GPT). До этого лучшие языковые модели искусственного интеллекта (ИИ) в основном использовали обучение с учителем на основе большого количества вручную размеченных данных. Эта зависимость от обучения с учителем ограничивала их использование на неразмеченных наборах данных, а также делала обучение крайне дорогостоящим и затратным по времени для обучения очень больших моделей.
В отличие от этого подход GPT включал в себя этап ненадзорного генеративного “предварительного” обучения, используемый для установки начальных параметров, а затем этап “настройки” для адаптации этих параметров к целевой задаче. GPT имел 117 миллионов параметров, которые можно было рассматривать как примерно эквивалентные отдельным соединениям в мозгу. Новая архитектура GPT обеспечивала более структурированную память, что приводило к “устойчивой переносимой производительности на различных задачах”.
Исследования OpenAI привели к более продвинутой версии с размером набора данных и количеством параметров в 10 раз больше. Как и ее предшественник, GPT-2 использовал ненадзорную модель трансформатора, обученную создавать текст, предсказывая наиболее вероятное следующее слово в последовательности токенов. Продолжая предсказывать дополнительные слова, он мог соединять полные предложения и абзацы с полностью понятными (и семантически значимыми) утверждениями на естественном языке, несколько похожим на очень продвинутую форму автокоррекции на смартфонах. Большой набор данных позволил GPT-2 выполнять задачи за пределами простого создания текста: такие как ответы на вопросы или краткое изложение и даже перевод между языками в различных конкретных областях без предварительной инструкции.
GPT-3, выпущенный в июне 2020 года, поднял исследования на новый уровень. Он имел количество параметров 175 миллиардов, более чем в 100 раз больше, чем у GPT-2, и требовал 800 ГБ хранилища. Около 60% взвешенного набора данных для предварительного обучения GPT-3 было получено из отфильтрованной версии Common Crawl – открытого хранилища данных веб-сайтов, состоящего из 410 миллиардов байт-парных закодированных токенов. Другие источники текста включали WebText2 – корпус веб-сайтов, связанных с сообщениями Reddit с тремя или более положительными отзывами, а также Википедию и цифровые книги.
The New York Times описала способность GPT-3 генерировать естественно звучащий язык, включая компьютерный код, наряду с поэзией и прозой, не только как «удивительный», «жуткий» и «унизительный», но и как «более чем ужасающий». В обзоре Wired говорится, что от GPT-3 «бегут мурашки по всей Силиконовой долине».
Однако некоторые остались настроены скептически, в том числе сам генеральный директор OpenAI Сэм Альтман, который раскритиковал то, что он назвал «ажиотажем вокруг GPT-3», признав, что он имеет «серьезную слабость и иногда делает очень глупые ошибки… ИИ собирается изменить мир, но GPT-3 — это всего лишь очень ранний проблеск».
Растущее использование технологий автоматической генерации текста, основанных на GPT-3 и других языковых генераторах, привело к спорам об академической честности и о том, как школы и университеты должны оценивать, что представляет собой академические проступки, такие как плагиат. Опасения также возникли из-за возможности распространения дезинформации, в том числе предвзятого, сексистского, расистского и другого вредоносного контента, создаваемого ботами. В одном случае французский медицинский стартап протестировал GPT-3 в качестве медицинского чат-бота, который посоветовал вымышленному пациенту покончить жизнь самоубийством.
Тем не менее, GPT-3 оказалась чрезвычайно впечатляющей технологией во многих областях. Продолжались исследования алгоритмов, что привело к созданию нового прототипа, который пытался уменьшить количество негативных или ложных ответов. ChatGPT, версии 3.5, был запущен в ноябре 2022 года и продемонстрировал улучшенное понимание этики и морали. Он мог предложить более вдумчивые ответы о том, что делать — с учетом законности, чувств и эмоций людей и безопасности всех участников — с четко сформулированными ответами во многих областях знаний. ChatGPT также обладал феноменальными навыками компьютерного кодирования, способного сгенерировать весь макет веб-сайта или подробный сценарий за считанные секунды всего по нескольким запросам пользователя. Однако его фактическая точность оказалась в ряде случаев неравномерной.
GPT-4 появляется в 2023 году, и эксперты по технологиям начали размышлять о том, какими могут быть его возможности. Оценки количества параметров сильно различались — от тех, кто считал, что оно будет таким же или лишь немного больше, чем 175 миллиардов GPT-3, до тех, кто предсказывал еще один огромный скачок, возможно, на сотни триллионов.
В конце концов, GPT-4 оказывается в нижней части этих прогнозов. Однако эффективное масштабирование значительно улучшилось в последние годы, а это означает, что количество параметров само по себе больше не является лучшим показателем производительности языковой модели — схлже с так называемым «мифом о мегагерцах» 2000-х годов, который применялся к скоростям персональных компьютеров. Вместо этого обучение на больших наборах данных теперь более важно.
GPT-4 представляет собой самую впечатляющую языковую модель из когда-либо созданных — она прошла несколько модифицированных версий теста Тьюринга и вызвала широкие общественные дебаты по поводу потенциала искусственного интеллекта в ближайшем будущем. Он имеет большую скорость, более длинное контекстное окно, лучшую точность фактов и улучшенную способность «запоминать» и ссылаться на информацию из предыдущих разговоров. В нем также дополнительно рассматриваются этические проблемы, связанные с более ранними версиями.
Благодаря постоянному повышению эффективности и снижению стоимости оборудования GPT-4 и его производные начинают распространяться в таких приложениях, как обслуживание клиентов и техническая поддержка. Пятое и шестое поколения языковых моделей будут разработаны во второй половине 2020-х годов, что приведёт к созданию действительно человекоподобного ИИ, способного имитировать реального человека почти в 100% случаев.
Больше…