Зачем переводить классический корейский?

Открывая книгу эпохи Чосон, вы видите не просто текст — вы видите загадку. Отсутствие пробелов, исчезнувшие буквы вроде Arae-a (ㆍ) делают чтение настоящим квестом даже для носителей языка. Но что, если нейросеть сможет стать мостом между веками? В этом туториале мы настроим Gemma 4 на перевод классического корейского в современный — ваш код оживит древние истории.

Что нам понадобится

Мы будем работать на одном NVIDIA T4 (16GB) в Google Colab. Используем transformers, trl для обучения и peft для LoRA — это позволит дообучить модель без огромных кластеров.

Готовим данные

Возьмём роман HongGildongJeon и его современный перевод. Структурируем в диалог с системным промптом:

[  {"role": "system", "content": "Translate Classical Korean into Modern Korean."},  {"role": "user", "content": "됴션국셰둉ᄃᆡ왕즉위십오연의홍희문밧긔ᄒᆞᆫᄌᆡ상이잇스되"},  {"role": "assistant", "content": "조선국 세종대왕 즉위 십오년에 홍회문 밖에 한 재상이 있으되,"}]

Эта строка знакомит нас с премьер-министром, жившим за воротами Хонхве в 15-й год правления короля Седжона.

Базовый тест: до обучения

Проверим модель без тонкой настройки. Результат — длинные буквальные объяснения. Пример:

Оригинал: ᄇᆡᆨ씨듯고ᄂᆡ심의탄복왈그근본을ᄀᆞᆷ초지아니ᄒᆞ니장부로다ᄒᆞ고ᄌᆡ삼위로ᄒᆞ더라

Человеческий перевод: 백씨 듣고 내심에 탄복 왈, "그 근본을 감추지 아니하니 장부로다!" 하고, 재삼 위로하더라.

Ответ Gemma: "Like the color, the heart's praise said, 'The foundation cannot be deeply felt...'"

Оценка похожести: 4.85% 💔

Модель явно потерялась во времени.

Настройка с LoRA

Используем PEFT с LoRA для эффективного обучения:

from peft import LoraConfig

peft_config = LoraConfig(    lora_alpha=16,    lora_dropout=0.05,    r=16,    bias="none",    target_modules="all-linear",    task_type="CAUSAL_LM")

Секретный ингредиент: collate_fn

Чтобы модель не училась переписывать промпт, маскируем системные и пользовательские входы (ставим -100), фокусируя loss только на генерации правильного ответа ассистента.

Запускаем 5 эпох с learning rate 2e-5.

Результат: после обучения

Похожесть подскочила до 79.93%! Смотрим на тот же пример:

Оригинал: ᄇᆡᆨ씨듯고ᄂᆡ심의탄복왈그근본을ᄀᆞᆷ초지아니ᄒᆞ니장부로다ᄒᆞ고ᄌᆡ삼위로ᄒᆞ더라

Человеческий перевод: 백씨 듣고 내심에 탄복 왈, "그 근본을 감추지 아니하니 장부로다!" 하고, 재삼 위로하더라.

Перевод Gemma после настройки: 백씨듯 고내심에 탄복 왈, "그 근본을 감초지 아니하니 장부로다." 하고 제삼 위로 하더라.

Новая оценка: 85.71% ✨

Вывод: что делать прямо сейчас

Технологии часто толкают нас в будущее, но лучшие проекты — те, что позволяют яснее взглянуть в прошлое. Потратив немного времени на тонкую настройку Gemma 4, вы можете создать инструмент для сохранения культурного наследия.

Вот ваш план действий:

Определите чёткую цель перевода
Подготовьте качественный датасет и метрики оценки
Убедитесь, что модель обучается
Оцените результат метриками и вручную
Разверните и улучшайте

Попробуйте сами — возьмите любой исторический текст и превратите его в современный язык с помощью этой техники.

Тонкая настройка Gemma 4 для перевода классического корейского

Зачем переводить классический корейский?

Что нам понадобится

Готовим данные

Базовый тест: до обучения

Настройка с LoRA

Секретный ингредиент: collate_fn

Результат: после обучения

Вывод: что делать прямо сейчас

Читать также

Red Team AI Benchmark v1.9.0: этика и модульная архитектура

Контекстная инженерия: как правильно компактировать историю AI-агента

Проверка кода AI: главный навык разработчика