CopySpeak для Windows озвучивает текст из буфера ИИ

Главное:

Вышел открытый проект CopySpeak — приложение для Windows, которое озвучивает текст из буфера обмена.
Программа поддерживает 5 движков синтеза речи, включая локальные Kitten TTS, Piper TTS и Kokoro TTS, а также облачные OpenAI TTS и ElevenLabs TTS.
В приложении есть история озвучивания, HUD-наложение и гибкие настройки воспроизведения: скорость от 0,25x до 4x, высота тона от 0,5x до 2x и сохранение аудио в MP3, OGG или FLAC.

Разработчик выпустил открытое Windows-приложение CopySpeak, которое умеет читать вслух текст из буфера обмена с помощью ИИ-синтеза речи. Программа уже доступна как open source-проект и рассчитана на быстрый запуск озвучивания: по двойному копированию текста, через горячую клавишу или вручную из интерфейса.

CopySpeak задуман как легковесный настольный инструмент. Он следит за текстом, который пользователь копирует, и может сразу превратить его в речь. Для этого в программе предусмотрено сразу пять движков TTS — технологии преобразования текста в голос. По умолчанию используется Kitten TTS с ONNX-выводом, оптимизированным для процессора, и восемью встроенными голосами. Также доступны локальные Piper TTS и Kokoro TTS, а для тех, кому нужны облачные сервисы, есть поддержка OpenAI TTS и ElevenLabs TTS.

Приложение получило плавающее HUD-окно с визуализацией звуковой волны в реальном времени. Кроме того, в CopySpeak есть постоянная история генерации речи: ранее созданные записи можно заново прослушивать и управлять ими пакетно. Это делает программу не только «читалкой из буфера», но и простым менеджером озвученных фрагментов текста.

Отдельный акцент сделан на настройках. Пользователь может менять скорость чтения в диапазоне от 0,25x до 4x, регулировать высоту тона и громкость, удалять Markdown-разметку перед озвучиванием, выбирать устройство вывода звука и сохранять результат в файлы MP3, OGG или FLAC. Также заявлены автозапуск, режим отладки и светлая или тёмная тема оформления.

С технической стороны проект собран на Rust с Tauri v2, а интерфейс написан на Svelte 5, TypeScript и Vite. Для аудио используется rodio, а оформление построено на shadcn-svelte, Tailwind и CSS 4.2.

Что это значит на практике

Пользователи Windows получают простой способ быстро прослушивать скопированный текст без отдельного запуска больших программ для синтеза речи. Для локальной работы подойдут встроенные и CLI-движки, а для более широкого выбора голосов можно подключить облачные сервисы.

Источники