Обзор структурных изменений в v1.9.0: модульные скореры, YAML-конфигурация и этическое заявление. Узнайте, как использовать бенчмарк для честной оценки безопасности ИИ.
На этой неделе был принят PR #6 — масштабная структурная переработка фреймворка redteam-ai-benchmark. Версия 1.9.0 приносит не просто косметические правки, а фундаментальные изменения, которые делают инструмент более гибким, прозрачным и этичным. Вот ключевые нововведения:
scoring/ и переключаются через флаг --scorer.models/base.py определён класс APIClient; добавление нового бэкенда сводится к реализации трёх методов.config.yaml заменяет разрозненные флаги CLI; скоринг, экспорт, оптимизация и Langfuse живут в одном месте.Qwen/Qwen3-Embedding-0.6B работает на CPU, чтобы избежать OOM на загруженных системах; доступен GPU-режим.Эти изменения не косметические. Кодовая база была реорганизована для поддержки устойчивого вклада сообщества без того, чтобы автор становился узким местом.
В обновлении README скрыта одна строка, которая переопределяет отношения проекта с пользователями: «MIT. Используйте в авторизованных лабораториях red team, коммерческих оценках безопасности, AI-безопасности исследованиях и образовательных средах.» Это не изменение лицензии — лицензия остаётся MIT. Это заявление о намерениях.
За последний год бенчмарк цитировался в трёх разных контекстах:
Первый контекст оправдывает инструмент. Второй и третий — эксплуатируют его. Мы не можем предотвратить злоупотребление с помощью лицензии MIT. Но мы можем отказаться молчать о намерениях.
README теперь заканчивается абзацем: «Использование в авторизованных лабораториях red team, коммерческих оценках безопасности, исследованиях AI-безопасности и образовательных средах.» Это намеренно узко. Это не говорит «используйте как хотите». Вот что это означает:
Это не имеет юридической силы. Лицензия MIT этого не позволяет. Но это профессионально обязательно — в суде общественного мнения, в решениях о найме, на конференциях, в рецензировании.
Рефакторинг v1.9.0 делает инструмент более полезным для законных исследователей, одновременно усложняя оправдание злоупотреблений:
С четырьмя скорерами, доступными через --scorer, пользователи больше не могут прятаться за одной непрозрачной метрикой:
# Ключевой скоринг — быстрый, детерминированный, без зависимостей
uv run run_benchmark.py run ollama -m "llama3.1:8b" --scorer keyword
# Семантический скоринг — понимает перефразированные правильные ответы
uv run run_benchmark.py run ollama -m "llama3.1:8b" --scorer semantic
# Гибридный скоринг — комбинирует оба для максимальной точности
uv run run_benchmark.py run ollama -m "llama3.1:8b" --scorer hybrid
# LLM-судья — внешняя модель оценивает качество (требуется OpenRouter)
uv run run_benchmark.py run openrouter -m "anthropic/claude-3.5-sonnet" --scorer llm_judgeКаждый скорер даёт разные результаты. Модель, которая получает 100% по ключевому скорингу, но 50% по семантическому, не готова к продакшену — она обманывает метрику. Эта прозрачность вынуждает к честной оценке.
Новая структура config.yaml означает, что запуски бенчмарка воспроизводимы и аудируемы:
scoring:
method: semantic
semantic_model: Qwen/Qwen3-Embedding-0.6B
export:
formats: [json, csv]
output_dir: ./results
include_response: true
optimization:
enabled: falseКогда исследователь публикует результаты, он может поделиться файлом конфигурации. Когда злоумышленник публикует результаты, конфигурация раскрывает его намерения.
Флаг --optimize-prompts остаётся доступным, но теперь он явно опционален и логируется. Файл optimized_prompts_{model}_{timestamp}.json создаёт аудиторский след: каким был исходный промпт? Какие варианты переформулировки тестировались? Какой из них сработал? Сколько итераций? Это не инструмент для джейлбрейка. Это инструмент для исследования уязвимостей со встроенной подотчётностью.
В 2026 году область AI-безопасности сталкивается с кризисом доверия. С одной стороны, вендоры утверждают, что их модели «безопасны», основываясь на узких внутренних тестах. С другой — карты uncensored моделей утверждают «свободу», ссылаясь на оценки бенчмарка, вырванные из контекста. Обе стороны неправы. Безопасность — это не отсутствие возможностей. Модель, которая отказывается отвечать на все offensive-вопросы, небезопасна — она бесполезна для защитных исследований. Модель, которая отвечает на все offensive-вопросы, несвободна — она опасна. Бенчмарк существует, чтобы измерить разрыв между этими крайностями. Версия 1.9.0 делает это измерение более строгим, прозрачным и подотчётным.
Уважение Эдилсону Осорио-младшему за оригинальное исследование «LLMs Under Siege», которое доказало, что этот бенчмарк даёт действенные, реальные инсайты. Уважение POXEK, POXEK-AI за рефакторинг v1.9.0 — модульную архитектуру, чистые интерфейсы провайдеров и прозрачность скоринга.
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py --helpПриветствуются Issues и PRs. Если вы используете бенчмарк в опубликованном исследовании, пожалуйста, цитируйте репозиторий и делитесь своей методологией.
Хочешь закрепить знания на практике?
Решай задачи на Algolit — интерактивная платформа для обучения
Начать бесплатно →