- Для длинных контекстов языковые модели лучше всего работают с русским, польским и украинским языками.
- Английский и китайский языки на длинных текстах показали худшие результаты, занимая места вне топ-5.
- С увеличением длины контекста растёт разрыв в производительности моделей на «богатых» и «бедных» по обучающим данным языках.
Специалисты, проводившие исследование на базе многоязычного бенчмарка OneRuler, обнаружили, что эффективность современных языковых моделей заметно зависит от языка, на котором представлен текст, особенно при обработке длинных контекстов. OneRuler представляет собой расширение бенчмарка RULER, охватывающее 26 языков и 7 задач, среди которых поиск ответов в масштабных текстах и агрегация информации по всему документу.
В исследовании приняли участие как закрытые, так и открытые модели, включая Gemini 1.5 Flash, OpenAI o3-mini-high, Qwen 2.5 (7B и 72B), Llama 3.1 (8B), Llama 3.3 (70B) и DeepSeek-R1. Результаты продемонстрировали неожиданный тренд: на коротких контекстах (до 8 тысяч токенов) различия в производительности между языками минимальны, однако при увеличении контекста до 128 тысяч токенов модели показывают лучшую эффективность на славянских языках (русском, польском, украинском), а также французском и итальянском. Английский язык оказался только шестым, а китайский — одним из аутсайдеров, заняв четвёртое место с конца.
Кроме того, анализ выявил, что с ростом объёма контекста разрыв в работе моделей на языках, которые представлены в обучающих данных более или менее полно, существенно увеличивается — с приблизительно 11% на 8k токенов до порядка 34% на 128k токенах. Особенно плохо модели справлялись с задачами агрегации информации на английском и китайском языках. Также отмечена нестабильность в ситуациях, когда язык запроса и язык анализируемого текста не совпадают.
Авторы исследования не предоставили окончательных объяснений такого распределения эффективности, но предложили ряд гипотез. Среди них — различия в плотности информации, заключённой в одинаковом количестве токенов различных языков, а также возможные перекосы в обучающих данных по количеству длинных текстов на разных языках. Отдельно отмечено, что многие модели испытывали сложности с выполнением инструкции «если ответа нет, напиши none» на английском и китайском.
В целом результаты подчеркивают, что современные языковые модели, несмотря на поддержку множества языков, демонстрируют нестабильность и языковую неоднородность в качестве ответов при работе с большими объёмами текста. Это важный сигнал для разработчиков и пользователей ИИ в области обработки естественного языка, указывающий на необходимость улучшения обучения и адаптации моделей под специфику разных языков и длинных контекстов.
