ChatGPT сегодня используют сотни миллионов людей, но мало кто понимает, как он на самом деле работает. Не в смысле «нейросеть предсказывает следующее слово» — это вы уже слышали. А в смысле: почему он такой умный? Почему иногда врёт? Почему отказывается отвечать на некоторые вопросы?
Что такое языковая модель
В основе ChatGPT лежит языковая модель — программа, которая умеет предсказывать следующий токен (примерно слово или часть слова) на основе всего предыдущего контекста. Это как автодополнение в телефоне, только в миллион раз умнее.
Модель обучается на огромных объёмах текста из интернета, книг, кода — сотни гигабайт данных. В процессе она учится улавливать связи между понятиями, строить логические цепочки, копировать стиль.
Трансформеры — сердце GPT
Архитектура называется Transformer (2017 год, статья «Attention is All You Need»). Ключевая идея — механизм внимания (attention): при предсказании каждого следующего слова модель «смотрит» на все предыдущие слова и взвешивает, какие из них важны в данном контексте.
Например, в предложении «Банк на реке был крутой» модель понимает, что «банк» — это берег, а не финансовое учреждение, именно потому что «внимание» привязывает его к слову «реке».
GPT-4 имеет сотни миллиардов параметров (весов). Каждый параметр — маленькое число, которое было настроено в процессе обучения. Вместе они кодируют огромное количество знаний о языке и мире.
RLHF — почему ChatGPT такой «вежливый»
Простая языковая модель умеет генерировать текст, но не умеет следовать инструкциям и быть полезной. ChatGPT дополнительно обучен методом RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе человеческой обратной связи).
Работает так:
- Люди-разметчики оценивали ответы модели — какой лучше, какой хуже
- На основе этих оценок обучалась модель вознаграждения
- GPT оптимизировался, чтобы получать высокие оценки от модели вознаграждения
Именно поэтому ChatGPT вежлив, структурирован, отказывается помогать с вредоносным контентом — это было «зашито» через RLHF.
Почему ChatGPT галлюцинирует
Модель не «знает» факты в человеческом смысле — она не обращается к базе данных. Она генерирует следующий токен на основе статистических паттернов. Если такой паттерн встречался в обучающих данных — ответ скорее всего верный. Если нет — модель «придумает» правдоподобно звучащий ответ.
Отсюда «галлюцинации»: несуществующие книги, неверные цифры, выдуманные биографии. Всегда проверяйте фактические утверждения ChatGPT в авторитетных источниках.
GPT-3, GPT-4, GPT-4o — в чём разница
Каждая новая версия — это больше параметров, лучшее качество данных, более продвинутое RLHF и новые возможности. GPT-4 умеет анализировать изображения (мультимодальность). GPT-4o — ещё быстрее и дешевле при сравнимом качестве.
Как использовать ChatGPT эффективнее
- Давайте контекст: «Ты опытный Python-разработчик. Помоги...»
- Просите думать вслух: «Объясни шаг за шагом»
- Итерируйте: первый ответ — черновик, уточняйте
- Проверяйте факты: особенно цифры, даты, ссылки
Понимание того, как работает ChatGPT, помогает использовать его более осознанно — знать, когда доверять, а когда перепроверять. А если хочешь научиться строить собственные AI-приложения, начни с основ программирования на Algolit.