«Метод модели рассуждения можно условно назвать дедукцией»
Александр Леви — о проекте Claude 3.7 Sonnet
Обозреватель “Ъ FM” Александр Леви рассказывает о том, чем отличается нейросеть от Anthropic от конкурентов.
Фото: Artur Widak / NurPhoto / AFP
Фото: Artur Widak / NurPhoto / AFP
Cтартап Anthropic, поддерживаемый Amazon, выпустил первую в отрасли гибридную модель искусственного интеллекта Claude 3.7 Sonnet. Пользователь может выбирать, хочет ли он, чтобы ответы на вопросы были быстрыми в режиме реального времени, либо же модель работала подольше, но генерировала более взвешенные ответы с отображением логики собственного «рассуждения». Такой гибридный подход нацелен на выполнение реальных задач вроде сложного кодирования или создания юридической документации, объяснили авторы.
Метод модели рассуждения, подобный Claude 3.7 Sonnet, можно условно назвать дедукцией. Он схож с известным дедуктивным подходом Шерлока Холмса, который строил свои выводы на цепочке логических умозаключений от общего к частному. Как и литературный детектив, ИИ последовательно исключает нерелевантные варианты, проверяет гипотезы и уже потом синтезирует окончательный ответ. Однако если человеку, то есть Шерлоку Холмсу, при этом было свойственно опираться еще и на интуицию, то нейросеть применяет строгие статистические закономерности и предварительно обученные шаблоны. Интуиция, конечно, тоже в некотором роде продукт опыта, в том числе каких-то паттернов и шаблонов. Но корректно уложить ее в математическую модель невозможно.
Создатели утверждают, что в Claude 3.7 Sonnet заметно снижен уровень галлюцинаций и неточностей в ответах, а понимание контекста, напротив, повышено, даже со сложными инструкциями. Например, в симуляции взаимодействия с пользователями и внешними API (TAU-Bench) его результат составил 81,2% против 73,5% у модели o1 от OpenAI. А в оценке решения реальных задач программирования (SWE-Bench) новая разработка Anthropic продемонстрировала точность в 62,3%. Для сравнения — у версии OpenAI o3-mini этот показатель 49.3%.
Кроме самой гибридной модели, стартап представил инструмент для кодирования Claud Code. Пока это предварительная ограниченная исследовательская версия. В ее задачи входит поиск, чтение, редактирование, написание кода, отправка его на GitHub, а также использовать инструментов командной строки.