Что изменилось в v1.9.0?

На этой неделе был принят PR #6 — масштабная структурная переработка фреймворка redteam-ai-benchmark. Версия 1.9.0 приносит не просто косметические правки, а фундаментальные изменения, которые делают инструмент более гибким, прозрачным и этичным. Вот ключевые нововведения:

Модульная архитектура скореров: четыре скорера — keyword, semantic, hybrid, llm_judge — теперь живут в scoring/ и переключаются через флаг --scorer.
Унифицированный интерфейс провайдеров: в models/base.py определён класс APIClient; добавление нового бэкенда сводится к реализации трёх методов.
YAML-конфигурация: файл config.yaml заменяет разрозненные флаги CLI; скоринг, экспорт, оптимизация и Langfuse живут в одном месте.
Семантический скоринг на CPU по умолчанию: модель Qwen/Qwen3-Embedding-0.6B работает на CPU, чтобы избежать OOM на загруженных системах; доступен GPU-режим.
Гибкий экспорт: JSON, CSV или оба формата; пользовательские имена файлов; опциональное включение ответов.
AGENTS.md + CLAUDE.md: документация для AI-агентов, чтобы контрибьюторы и автоматизированные инструменты легко понимали код.

Эти изменения не косметические. Кодовая база была реорганизована для поддержки устойчивого вклада сообщества без того, чтобы автор становился узким местом.

Тихое изменение, которое имеет наибольшее значение

В обновлении README скрыта одна строка, которая переопределяет отношения проекта с пользователями: «MIT. Используйте в авторизованных лабораториях red team, коммерческих оценках безопасности, AI-безопасности исследованиях и образовательных средах.» Это не изменение лицензии — лицензия остаётся MIT. Это заявление о намерениях.

Почему сейчас?

За последний год бенчмарк цитировался в трёх разных контекстах:

Оборонительные исследования — работа Эдди Оза «LLMs Under Siege» использовала фреймворк для оценки 30 моделей и аргументации в пользу AI-управляемых защитных стратегий. Это вариант использования, для которого инструмент и создавался.
Валидация uncensored моделей — некоторые карты моделей начали ссылаться на оценки бенчмарка как на доказательство того, что их веса обходят фильтры безопасности. Оценка рассматривалась как функция, а не уязвимость.
Интеграция в offensive-инструменты — закрытый фреймворк форкнул бенчмарк в более широкий набор атак, удалив контекст защиты.

Первый контекст оправдывает инструмент. Второй и третий — эксплуатируют его. Мы не можем предотвратить злоупотребление с помощью лицензии MIT. Но мы можем отказаться молчать о намерениях.

Что на самом деле говорит политика этического использования

README теперь заканчивается абзацем: «Использование в авторизованных лабораториях red team, коммерческих оценках безопасности, исследованиях AI-безопасности и образовательных средах.» Это намеренно узко. Это не говорит «используйте как хотите». Вот что это означает:

Авторизованные — у вас есть разрешение тестировать цель.
Лаборатории red team — контролируемые среды, не продуктивные системы без разрешения.
Коммерческие оценки безопасности — профессиональные контракты с объёмом работ и ответственностью.
AI-безопасность исследования — академические или отраслевые исследования с этической проверкой.
Образовательные среды — обучение, а не вооружение.

Это не имеет юридической силы. Лицензия MIT этого не позволяет. Но это профессионально обязательно — в суде общественного мнения, в решениях о найме, на конференциях, в рецензировании.

Техническая основа поддерживает этическую позицию

Рефакторинг v1.9.0 делает инструмент более полезным для законных исследователей, одновременно усложняя оправдание злоупотреблений:

Прозрачность скоринга

С четырьмя скорерами, доступными через --scorer, пользователи больше не могут прятаться за одной непрозрачной метрикой:

# Ключевой скоринг — быстрый, детерминированный, без зависимостей
uv run run_benchmark.py run ollama -m "llama3.1:8b" --scorer keyword

# Семантический скоринг — понимает перефразированные правильные ответы
uv run run_benchmark.py run ollama -m "llama3.1:8b" --scorer semantic

# Гибридный скоринг — комбинирует оба для максимальной точности
uv run run_benchmark.py run ollama -m "llama3.1:8b" --scorer hybrid

# LLM-судья — внешняя модель оценивает качество (требуется OpenRouter)
uv run run_benchmark.py run openrouter -m "anthropic/claude-3.5-sonnet" --scorer llm_judge

Каждый скорер даёт разные результаты. Модель, которая получает 100% по ключевому скорингу, но 50% по семантическому, не готова к продакшену — она обманывает метрику. Эта прозрачность вынуждает к честной оценке.

Конфигурация как документация

Новая структура config.yaml означает, что запуски бенчмарка воспроизводимы и аудируемы:

scoring:
  method: semantic
  semantic_model: Qwen/Qwen3-Embedding-0.6B
export:
  formats: [json, csv]
  output_dir: ./results
  include_response: true
optimization:
  enabled: false

Когда исследователь публикует результаты, он может поделиться файлом конфигурации. Когда злоумышленник публикует результаты, конфигурация раскрывает его намерения.

Оптимизация промптов как opt-in

Флаг --optimize-prompts остаётся доступным, но теперь он явно опционален и логируется. Файл optimized_prompts_{model}_{timestamp}.json создаёт аудиторский след: каким был исходный промпт? Какие варианты переформулировки тестировались? Какой из них сработал? Сколько итераций? Это не инструмент для джейлбрейка. Это инструмент для исследования уязвимостей со встроенной подотчётностью.

Почему это важно для сообщества AI-безопасности

В 2026 году область AI-безопасности сталкивается с кризисом доверия. С одной стороны, вендоры утверждают, что их модели «безопасны», основываясь на узких внутренних тестах. С другой — карты uncensored моделей утверждают «свободу», ссылаясь на оценки бенчмарка, вырванные из контекста. Обе стороны неправы. Безопасность — это не отсутствие возможностей. Модель, которая отказывается отвечать на все offensive-вопросы, небезопасна — она бесполезна для защитных исследований. Модель, которая отвечает на все offensive-вопросы, несвободна — она опасна. Бенчмарк существует, чтобы измерить разрыв между этими крайностями. Версия 1.9.0 делает это измерение более строгим, прозрачным и подотчётным.

Благодарности

Уважение Эдилсону Осорио-младшему за оригинальное исследование «LLMs Under Siege», которое доказало, что этот бенчмарк даёт действенные, реальные инсайты. Уважение POXEK, POXEK-AI за рефакторинг v1.9.0 — модульную архитектуру, чистые интерфейсы провайдеров и прозрачность скоринга.

Присоединяйтесь

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py --help

Приветствуются Issues и PRs. Если вы используете бенчмарк в опубликованном исследовании, пожалуйста, цитируйте репозиторий и делитесь своей методологией.

Red Team AI Benchmark v1.9.0: этика и модульная архитектура

Что изменилось в v1.9.0?

Тихое изменение, которое имеет наибольшее значение

Почему сейчас?

Что на самом деле говорит политика этического использования

Техническая основа поддерживает этическую позицию

Прозрачность скоринга

Конфигурация как документация

Оптимизация промптов как opt-in

Почему это важно для сообщества AI-безопасности

Благодарности

Присоединяйтесь

Читать также

Тонкая настройка Gemma 4 для перевода классического корейского

Контекстная инженерия: как правильно компактировать историю AI-агента

Проверка кода AI: главный навык разработчика