Научитесь настраивать Gemma 4 для перевода классического корейского языка на современный с помощью LoRA. Практический гайд с кодом Python.
Открывая книгу эпохи Чосон, вы видите не просто текст — вы видите загадку. Отсутствие пробелов, исчезнувшие буквы вроде Arae-a (ㆍ) делают чтение настоящим квестом даже для носителей языка. Но что, если нейросеть сможет стать мостом между веками? В этом туториале мы настроим Gemma 4 на перевод классического корейского в современный — ваш код оживит древние истории.
Мы будем работать на одном NVIDIA T4 (16GB) в Google Colab. Используем transformers, trl для обучения и peft для LoRA — это позволит дообучить модель без огромных кластеров.
Возьмём роман HongGildongJeon и его современный перевод. Структурируем в диалог с системным промптом:
[ {"role": "system", "content": "Translate Classical Korean into Modern Korean."}, {"role": "user", "content": "됴션국셰둉ᄃᆡ왕즉위십오연의홍희문밧긔ᄒᆞᆫᄌᆡ상이잇스되"}, {"role": "assistant", "content": "조선국 세종대왕 즉위 십오년에 홍회문 밖에 한 재상이 있으되,"}]Эта строка знакомит нас с премьер-министром, жившим за воротами Хонхве в 15-й год правления короля Седжона.
Проверим модель без тонкой настройки. Результат — длинные буквальные объяснения. Пример:
Оригинал: ᄇᆡᆨ씨듯고ᄂᆡ심의탄복왈그근본을ᄀᆞᆷ초지아니ᄒᆞ니장부로다ᄒᆞ고ᄌᆡ삼위로ᄒᆞ더라
Человеческий перевод: 백씨 듣고 내심에 탄복 왈, "그 근본을 감추지 아니하니 장부로다!" 하고, 재삼 위로하더라.
Ответ Gemma: "Like the color, the heart's praise said, 'The foundation cannot be deeply felt...'"
Оценка похожести: 4.85% 💔
Модель явно потерялась во времени.
Используем PEFT с LoRA для эффективного обучения:
from peft import LoraConfigpeft_config = LoraConfig( lora_alpha=16, lora_dropout=0.05, r=16, bias="none", target_modules="all-linear", task_type="CAUSAL_LM")Чтобы модель не училась переписывать промпт, маскируем системные и пользовательские входы (ставим -100), фокусируя loss только на генерации правильного ответа ассистента.
Запускаем 5 эпох с learning rate 2e-5.
Похожесть подскочила до 79.93%! Смотрим на тот же пример:
Оригинал: ᄇᆡᆨ씨듯고ᄂᆡ심의탄복왈그근본을ᄀᆞᆷ초지아니ᄒᆞ니장부로다ᄒᆞ고ᄌᆡ삼위로ᄒᆞ더라
Человеческий перевод: 백씨 듣고 내심에 탄복 왈, "그 근본을 감추지 아니하니 장부로다!" 하고, 재삼 위로하더라.
Перевод Gemma после настройки: 백씨듯 고내심에 탄복 왈, "그 근본을 감초지 아니하니 장부로다." 하고 제삼 위로 하더라.
Новая оценка: 85.71% ✨
Технологии часто толкают нас в будущее, но лучшие проекты — те, что позволяют яснее взглянуть в прошлое. Потратив немного времени на тонкую настройку Gemma 4, вы можете создать инструмент для сохранения культурного наследия.
Вот ваш план действий:
Попробуйте сами — возьмите любой исторический текст и превратите его в современный язык с помощью этой техники.
Хочешь закрепить знания на практике?
Решай задачи на Algolit — интерактивная платформа для обучения
Начать бесплатно →