Qwen3 ASR Flash

Речь в текстДоступна

Релиз: 14 мая 2026 г.

ASR-сервис Alibaba на Qwen3-Omni. 11 языков, автоопределение, работа в сложных акустических условиях.

Qwen3-ASR-Flash — сервис автоматического распознавания речи от Alibaba, построенный на фундаменте Qwen3-Omni и обученный на десятках миллионов часов мультимодальных речевых данных. Модель обрабатывает 11 языков — включая китайский (с диалектами кантонский, сычуаньский, миньнань и у), английский, арабский, французский, немецкий, испанский, итальянский, португальский, русский, японский и корейский — с автоматическим определением языка, что исключает необходимость ручной настройки для смешанных аудио.

Модель разработана для сложных акустических условий: транскрибирует текст песен поверх фоновой музыки, обрабатывает шумные и удалённые записи, фильтрует тишину и неречевое аудио, а также принимает произвольный контекстный текст (имена, жаргон, терминологию) для смещения распознавания в сторону конкретной лексики.

Ключевые характеристики:

11 языков + диалекты: Китайский (4 диалекта), английский, арабский, французский, немецкий, испанский, итальянский, португальский, русский, японский, корейский
Автоопределение языка: Без ручной настройки
Сложные акустические условия: Музыка, шум, дальний звук
Фильтрация: Тишина и неречевое аудио
Контекстная подсказка: Имена, жаргон, терминология

Идеально подходит для:

Транскрибации музыкальных произведений
Обработки шумных и удалённых записей
Многоязычных проектов с автоопределением
Аудио с доменной терминологией
Профессиональной транскрипции в сложных условиях

Тарификация:

31 Искра за час аудио

💡 Пример: 1 час аудио = 31 Искра

Дата релиза: 14 мая 2026 г.

🎙️ 11 языков + автоопределение + работа со сложным аудио

Открыть в чате Назад к каталогу