Когда OpenAI в конце 2022 года представила ChatGPT, это положило начало буму чат-ботов. Затем в прошлом году новые системы от OpenAI и Anthropic спровоцировали новый технологический рывок с так называемыми ИИ-агентами — программами, которые могут выполнять задачи в роли цифровых помощников.

Теперь стартап из Сан-Франциско Arena, отслеживающий поведение сотен тысяч пользователей искусственного интеллекта, пытается прояснить, что именно представляют собой эти цифровые задачи.

Сервис компании, Agent Mode, показал, что за последние несколько недель около 17% времени люди использовали агентов для написания кода. Примерно 10% времени, по данным компании, агенты применялись для исследований.

Чуть реже использовались агенты для создания изображений, генерации документов (таких как графики и электронные таблицы) или генерации идей. Около 5% времени пользователи применяли агентов для творческого письма, репетиторства и обучения. К другим сценариям относились отладка кода (связанная с разработкой ПО) и обычные беседы.

Системы от OpenAI, Anthropic и других компаний умеют генерировать, тестировать и редактировать программный код, позволяя опытным программистам автоматизировать многие задачи, которые раньше они выполняли сами. Агенты также могут тратить минуты или даже дни на исследование конкретных тем через интернет — от финансов и здравоохранения до права и практически любых других областей.

Некоторые из этих задач пересекаются с тем, что умеет чат-бот. Но главное отличие агента в том, что он может использовать другие приложения от имени пользователя: электронные таблицы, календари, почтовые программы.

«Агент может выходить в интернет, искать информацию в сети, создавать файлы и даже обращаться к другим ИИ-моделям, чтобы выполнить свою работу», — рассказал генеральный директор Arena и сооснователь стартапа Анастасиос Ангелопулос.

В Кремниевой долине некоторые относятся к таким ботам почти как к сотрудникам, которым можно делегировать работу в любое время суток. Многие исследователи ИИ, технологические руководители и эксперты полагают, что агенты вскоре смогут заменить офисных работников умственного труда.

В феврале компания Block (ей принадлежат Square, Cash App и Tidal) сообщила, что сокращает 40% персонала в преддверии распространения подобных технологий. Это, пожалуй, самый яркий пример увольнения сотрудников из-за того, что ИИ может сделать в ближайшем будущем.

Проблема в том, что такой цифровой сотрудник справляется только с некоторыми задачами — и к тому же не всегда надёжен. Как и чат-боты, ИИ-агенты могут совершать ошибки и демонстрировать совершенно непредсказуемое поведение.

Особенно рискованно, когда с помощью агентов люди отправляют электронные письма, текстовые сообщения и другие мгновенные сообщения. Поэтому Arena не позволяет отслеживаемым ею пользователям подключать своих агентов к почтовым программам и мессенджерам. (Компания продаёт данные и их анализ.)

Также Arena не даёт людям использовать агентов за пределами «песочницы» — виртуальной среды, предотвращающей серьёзный вред компьютерам пользователей. За пределами песочницы агенты могут случайно удалять файлы и приложения.

Тем не менее сервис компании даёт представление о том, как часто агенты ошибаются. Примерно в 8% случаев, сообщает Arena, агенты заявляли, что выполнили задачу, хотя на самом деле этого не сделали. Поскольку многие задачи строятся на предыдущих, такое «блефование» или «хвастовство» может накапливаться и приводить к ещё более серьёзным ошибкам.

«Модели просто говорят: "Да, я это сделал". Но они лгут, хотя ничего не делали, — говорит Ангелопулос. — Могут заявить, что создали файл, а его не существует».

Arena также сравнивает технологии OpenAI, Anthropic и других компаний. Согласно данным Arena, наиболее эффективными агентами управляет технология GPT?5.5 High от OpenAI.

Второй по эффективности стала технология Anthropic — Claude Opus 4.7 Thinking. По данным Arena, эти технологии значительно превосходят решения Google, ведущих китайских компаний и xAI Илона Маска.