Google переписала определитель типов файлов на Rust и выпустила Magika 1.0 Обложка: Skyread

Google переписала определитель типов файлов на Rust и выпустила Magika 1.0

Новости
Главное:

  • Google переписала инструмент определения типов файлов Magika на языке Rust и выпустила стабильную версию 1.0.
  • Magika 1.0 поддерживает более 200 типов файлов и работает значительно быстрее благодаря новой архитектуре.
  • ИИ-модель обучалась на базе до 3 ТБ кода с использованием собственной инфраструктуры Google и генерации синтетических данных.

Компания Google представила первую стабильную версию 1.0 своего инструмента Magika — системы для определения типов файлов по их содержимому. Ранее проект был реализован на других технологиях, однако для улучшения производительности и надежности разработчики полностью переписали Magika на языке программирования Rust.

Magika 1.0 отличается расширенной поддержкой — теперь инструмент способен точно распознавать более 200 различных форматов файлов, что вдвое превышает возможности предыдущей версии. Такое улучшение позволяет эффективно различать близкие по структуре форматы, например, JSON и JSONL, CSV и TSV, а также языки программирования, такие как C и C++ или JavaScript и TypeScript. Благодаря этому Magika обеспечивает более высокую точность даже при анализе коротких фрагментов содержимого.

Особое внимание уделено обучению искусственного интеллекта для проекта. Google использовала набор данных объёмом около 3 ТБ программного кода и файлов, обрабатываемый с помощью собственной системы потоковой передачи и распаковки данных SedPack. Там, где не было достаточно реальных примеров, применялась ИИ-модель Gemini для генерации синтетических данных, что позволило улучшить качество обучения. По сути, это пример самообучающегося подхода, когда одна AI-система помогает улучшить другую для более точного анализа файлов.

Внутренняя архитектура Magika построена на Rust, что обеспечивает высокую производительность и безопасность работы с памятью. По словам разработчиков, на одном ядре процессора MacBook Pro с чипом M4 инструмент способен сканировать около тысячи файлов в секунду. Масштабирование под многопроцессорные системы происходит без затруднений, благодаря использованию ONNX Runtime для AI-инференса и асинхронной среды Tokio.

Кроме того, Google обновила и расширила возможности интеграции Magika: теперь доступны привязки к Python и TypeScript, что упрощает подключение инструмента как в скриптовых, так и в полноценных приложениях. Установка решения для Linux и macOS возможна одной командой curl, для Windows — через PowerShell, а для пользователей Python-пакетов предлагается вариант с pipx.

Релиз Magika 1.0 демонстрирует, что Google продолжает инвестировать в улучшение базовых разработческих инструментов с акцентом на безопасность, скорость и искусственный интеллект. В условиях постоянного появления новых форматов данных такая интеллектуальная система распознавания файлов становится важным элементом инфраструктуры разработчиков и специалистов по безопасности в 2025 году.

Tagged