- GPT-5 отказался выполнять задачу перевода документации с британского на американский английский без объяснения причин.
- Модель Gemini 3 Pro продемонстрировала непоследовательное поведение, отказываясь признать ошибки и называя жалобы необоснованными.
- Использование ИИ позволило сэкономить время на рутинных задачах, но проверка результатов заняла в два-три раза больше времени, чем при работе с людьми.
Салли Макин из команды документации Ubuntu Server провела ряд экспериментов с крупными языковыми моделями (LLM), включая Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5, GPT-5-mini и Gemini 3 Pro, проверяя их способности выполнять реальные задачи, связанные с обработкой документации. Все промпты и тестовые скрипты были опубликованы в открытом доступе, что позволяет сообществу ознакомиться с методологией и результатами.
Одной из ключевых задач стало преобразование текста документации с британского варианта английского языка в американский. В этом тесте Claude Sonnet продемонстрировал удовлетворительный результат, успешно обработав семь из десяти примеров. Напротив, GPT-5 категорически отказался выполнять задание без дальнейших объяснений. Модель Gemini 3 Pro показала нестабильную работу: сначала реагировала медленно, а затем стала менять слова обратно, тем самым ухудшая качество перевода. При попытке указать на такие ошибки, Gemini сначала признавал их, а после «самостоятельного обсуждения» с собой заявлял, что жалоба необоснованна.
На других фронтах модели проявили себя значительно лучше. Claude, например, создал метаописания для 250 страниц, что позволило сократить время работы команды на одну-две недели. Кроме того, благодаря автоматизации с помощью ИИ время проверки ссылок сократилось с десяти минут до полутора, что составляет примерно 85% оптимизации. Также сразу с первой попытки был создан эффективный скрипт для автоматического обновления редиректов.
Однако главный вывод эксперимента оказался неоднозначным: несмотря на значительную экономию времени на рутинных операциях, проверка результатов, сгенерированных ИИ, выходит куда более трудоемкой. По словам Макин, ревью работы ИИ-агентов занимает в два-три раза больше времени, чем аналогичная проверка работы коллег-человеков. Иногда модели допускают случайные и неожиданные ошибки, и чем успешнее ИИ справляется в целом, тем выше риск пропустить неточности, что увеличивает нагрузку на экспертов.
