Разработчик за месяц продиктовал почти 250 тысяч слов для распознавания речи Обложка: Skyread

Разработчик за месяц продиктовал почти 250 тысяч слов для распознавания речи

Новости
Главное:

  • Разработчик Модестас Валаускас за 39 дней продиктовал более 243 тысяч слов, используя приложение Wispr Flow для преобразования речи в текст.
  • Валаускас интегрировал API Voxtral Transcribe 2 от Mistral, который обеспечивает транскрипцию на 13 языках с низкой стоимостью и высокой скоростью обработки.
  • Для удобства диктовки он перепрограммировал презентационный кликер, что позволило работать в движении, а исходный код инструментов он опубликовал открыто на GitHub.

Модестас Валаускас, автор блога Modulovalue, поделился опытом интенсивного использования технологий преобразования речи в текст. За 39 дней он продиктовал 243 554 слова — примерно равное объёму двух книг — используя тестовое приложение Wispr Flow. Этот сервис работает в фоне и совместим с любыми приложениями, автоматически исправляет слова-паразиты, расставляет знаки препинания и адаптирует форматирование под разные задачи благодаря встроенному словарю, который изучает специфическую терминологию.

Валаускас отметил, что постоянная практика диктовки значительно облегчила ему общение и снизила когнитивную нагрузку, связанную с набором текста с клавиатуры. Благодаря этому он смог поддерживать высокий рабочий ритм даже в движении, перепрограммировав презентационный кликер так, чтобы одной кнопкой активировать запись через Wispr Flow, а другой — отправлять сообщения. По его словам, такой метод ввода оказался самым ленивым и эффективным.

Кроме того, автор воспользовался API Voxtral Transcribe 2 от компании Mistral, предлагающим универсальную транскрипцию на 13 языках с контекстной привязкой и временными метками по словам. Стоимость услуги составляет $0,003 за минуту при пакетном использовании и $0,006 за минуту в реальном времени, что значительно дешевле абонентской платы Wispr Flow Pro. Валаускас оценил свой объем диктовки в 1888 минут речи: транскрипция обошлась бы ему в районе $5,66–$11,33.

Примечательно, что Voxtral можно разместить на собственном сервере, так как исходные веса моделей доступны под лицензией Apache 2.0. При этом Wispr Flow, вероятно, использует технологию Whisper для преобразования речи. Для тестирования Voxtral Валаускас создал удобный веб-интерфейс с возможностью ввода API-ключа и получения расшифровки с подробной разметкой. Исходный код опубликован на GitHub в открытом доступе.

Автор также отметил преимущество Voxtral над Wispr Flow по скорости работы: первые не требуют долгого ожидания транскрипции, тогда как во втором сервисе спустя некоторое время появляются задержки и ошибки. Такой опыт демонстрирует растущие возможности современных инструментов для повышения продуктивности работы с текстом и перспективы внедрения таких решений в профессиональную деятельность.

Tagged