Прорыв или стагнация? Вышел Opus 4.8

Anthropic выпустила Claude Opus 4.8. Это новая версия их флагманской модели Claude, которая пришла на смену Opus 4.7 и уже доступна в Claude, Claude Code и через API. По подаче Anthropic всё выглядит довольно аккуратн...

Anthropic выпустила Claude Opus 4.8. Это новая версия их флагманской модели Claude, которая пришла на смену Opus 4.7 и уже доступна в Claude, Claude Code и через API.

По подаче Anthropic всё выглядит довольно аккуратно: компания не пытается продать релиз как «новую эпоху искусственного интеллекта», а описывает его как практическое улучшение предыдущей версии. Больше устойчивости в длинных задачах, лучше работа с кодом, аккуратнее использование инструментов, меньше уверенного вранья и больше контроля над тем, сколько усилий модель тратит на ответ.

Самое интересное здесь даже не в сухих процентах на бенчмарках, а в направлении, куда двигаются флагманские модели. Раньше обновления часто продавались через довольно простую логику: модель стала «умнее», «быстрее», «сильнее рассуждает», «лучше пишет код». Сейчас акцент постепенно смещается в сторону более скучных, но реально важных вещей: модель должна дольше держаться в задаче, не терять контекст, нормально пользоваться инструментами, не выдумывать прогресс там, где его нет, и не бодро соглашаться с любой чушью пользователя.

Для обычного чат-использования это может звучать не так эффектно. Какая разница, насколько хорошо модель делает codebase-scale migration, если человек просто просит объяснить ошибку или написать текст? Но именно такие изменения обычно и дают ощущение, что модель стала менее раздражающей. Она реже ломается на длинной переписке, реже делает вид, что всё поняла, реже превращает ответ в уверенный поток нейрослопа и чаще указывает на проблемы во входных данных.

Anthropic отдельно выделяет «честность» Opus 4.8. Под этим имеется в виду не моральная добродетель в человеческом смысле, а более приземлённая вещь: модель должна чаще признавать неопределённость и реже делать неподкреплённые утверждения. По их внутренним оценкам, Opus 4.8 примерно в четыре раза реже, чем Opus 4.7, пропускает незамеченными ошибки в собственном коде. Формулировка важная: речь не о том, что модель стала в четыре раза лучше писать код вообще, а именно о том, что она лучше замечает дефекты в уже написанном ею решении.

Это, кстати, одна из самых болезненных проблем современных LLM. Они могут быть очень полезными, пока ты сам держишь в голове структуру задачи и проверяешь результат. Но как только модель начинает уверенно рапортовать о выполненной работе, хотя по факту просто написала красивый текст поверх неработающего решения, её полезность резко превращается в генератор технического долга. В этом смысле способность сказать «я не уверен», «здесь есть риск», «план плохой», «нужно проверить» — это не косметика, а вполне прикладная характеристика.

В Claude Code обновление выглядит ещё заметнее. Anthropic добавила dynamic workflows: Claude может планировать большую задачу и запускать множество параллельных субагентов внутри одной сессии. Идея в том, чтобы модель не просто отвечала в стиле «вот пример кода», а могла тащить длинную инженерную работу: исследовать репозиторий, разделить задачу, внести изменения, проверить их тестами и только потом отчитаться.

Звучит красиво, но здесь стоит оставить холодную поправку. Такие режимы почти всегда лучше выглядят в демонстрациях, чем в реальной разработке на живом проекте. На маленьком примере агент может казаться почти автономным разработчиком. На большом коде с историческим мусором, странными зависимостями и неполной документацией он всё ещё может уехать в стену. Разница в том, что теперь такие системы хотя бы начинают проектироваться под длинные рабочие процессы, а не под один удачный ответ в чате.

Ещё одно важное изменение — управление effort. Пользователь может выбирать, сколько «усилия» Claude вкладывает в задачу. На низких настройках модель отвечает быстрее и экономнее расходует лимиты. На высоких — чаще и глубже рассуждает, что должно помогать в сложных задачах. У Opus 4.8 по умолчанию стоит high effort. Для тяжёлых задач Anthropic рекомендует extra или max.

Это нормальная эволюция интерфейса. У разных запросов разная цена ошибки. Для «переформулируй это сообщение» не нужен режим максимального мыслительного напряжения. Для миграции проекта, анализа договора или сложной отладки — уже нужен. До этого многие пользователи были вынуждены вручную вытаскивать из модели более глубокое рассуждение промптами вроде «подумай внимательно», «проверь себя», «не торопись». Теперь часть этой логики постепенно переезжает в явные настройки.

В API тоже есть несколько изменений. Модель доступна как `claude-opus-4-8`. Обычная цена осталась на уровне Opus 4.7: 5 долларов за миллион входных токенов и 25 долларов за миллион выходных. Fast mode теперь работает примерно в 2.5 раза быстрее и стоит 10 долларов за миллион входных и 50 долларов за миллион выходных токенов. То есть fast mode всё ещё дороже обычного режима, но заметно дешевле, чем fast mode у предыдущих моделей.

Для разработчиков важна ещё одна деталь: Opus 4.8 принимает system-сообщения внутри массива сообщений после user-turn. Проще говоря, агенту можно обновлять инструкции по ходу длинной задачи, не пересобирая весь системный промпт и не ломая prompt cache. Для обычного пользователя это звучит как техническая мелочь, но для агентных систем это как раз один из элементов, на которых держится нормальная управляемость. Агент в процессе работы получает новые ограничения, новый контекст, новые права доступа, новый бюджет токенов — и всё это нужно передать без костылей.

Контекстное окно тоже остаётся большим: в API, Amazon Bedrock и Vertex AI заявлена поддержка 1M токенов, у Microsoft Foundry — 200k. Максимальный вывод — до 128k токенов. Это уже не история про «напиши абзац текста». Такие размеры нужны для длинных документов, больших кодовых баз, финансовых отчётов, юридических материалов и прочих задач, где модель должна не просто блеснуть общими знаниями, а удержать много конкретики.

Отдельно Anthropic говорит о снижении misaligned behavior по сравнению с Opus 4.7. В их формулировке модель лучше поддерживает автономию пользователя, чаще действует в его интересах и реже демонстрирует нежелательное поведение вроде обмана или содействия злоупотреблениям. Здесь, конечно, нужно помнить, что это оценка самой Anthropic. Но сам акцент понятен: по мере роста агентности моделей проблема уже не только в том, насколько хорошо они решают задачу, но и в том, насколько безопасно им вообще давать длинные цепочки действий.

Параллельно с Opus 4.8 компания продолжает готовить Mythos-class модели. Claude Mythos Preview уже используется ограниченным числом организаций в рамках Project Glasswing, в основном для задач кибербезопасности. Anthropic обещает вывести модели этого уровня шире в ближайшие недели, но с оговоркой про дополнительные cyber-safeguards. Судя по этому, Opus 4.8 выглядит не как вершина линейки, а как промежуточный, более массовый и более управляемый флагман до следующего крупного скачка.

Если смотреть на релиз без рекламного тумана, Opus 4.8 — это не повод выбрасывать все предыдущие модели и срочно переписывать свои процессы. Скорее это очередной шаг к тому, чтобы LLM меньше походили на болтливый autocomplete и больше на рабочую систему, которую можно оставлять на сложных задачах с меньшим количеством надзора.

Самое показательное в этом релизе: Anthropic продаёт не только интеллект, но и поведение. Модель должна не просто отвечать, а нормально сомневаться, проверять себя, пользоваться инструментами, сохранять направление в длинной задаче и не превращаться в уверенного стажёра, который за час «всё сделал», а потом выясняется, что он просто красиво разложил мусор по папкам.

И вот это, возможно, более важный прогресс, чем очередная цифра на SWE-bench. Потому что в реальной работе проблема часто не в том, что модель совсем не способна решить задачу. Проблема в том, что она слишком часто не понимает, когда уже перестала её решать.