- TOON — новый формат для записи JSON-данных, ориентированный на более эффективное взаимодействие с большими языковыми моделями (LLM).
- Формат сокращает количество токенов на 30–60% по сравнению с форматированным JSON и улучшает качество ответов моделей при работе с большими плоскими массивами однотипных объектов.
- TOON не предназначен для глубоко вложенных и неравномерных структур данных, где компактный JSON может быть эффективнее, а для табличных и плоских данных минимальный размер сохраняет CSV.
Появился новый формат данных TOON, который предлагает альтернативный способ записи информации, совместимый с классическим JSON, но более оптимизированный для взаимодействия с большими языковыми моделями (LLM). В отличие от привычного «ключ — значение», TOON использует отступы, напоминающие YAML, и табличное представление массивов объектов, что делает структуру компактной и удобочитаемой для ИИ.
Главным преимуществом TOON является значительная экономия токенов при передаче больших объемов однотипных данных. В тестах формат демонстрирует снижение количества токенов на 30–60% по сравнению с отформатированным JSON и ощутимое сокращение против компактной JSON-записи. Кроме того, TOON способствует более точной работе моделей за счёт явного указания размеров массивов и заголовков с именами полей, что помогает избегать ошибок в интерпретации данных.
Однако формат не универсален. Авторы отмечают, что при работе со сложно вложенными или неравномерными структурами JSON оказывается более эффективным методом. Для чисто табличных и плоских данных выгоднее применять CSV, который даёт минимальный размер файла. TOON же вводит небольшой накладной расход, обеспечивая при этом строгую структуру и валидацию.
Для разработчиков уже доступны инструменты работы с TOON: командный интерфейс (CLI) через npx и библиотека на TypeScript. В документации представлены интерактивные примеры, позволяющие сравнить эффективность TOON с другими популярными форматами — JSON, YAML, CSV и XML.
Таким образом, TOON — это не прямая замена JSON, а специализированный вариант кодировки, призванный повысить эффективность работы языковых моделей с большими наборами однотипных данных. Такой подход может найти применение в задачах, где критична оптимизация токенов и предсказуемое поведение LLM.
