Qwen3 ASR Flash

Речь в текстДоступна

Релиз: 14 мая 2026 г.

ASR-сервис Alibaba на Qwen3-Omni. 11 языков, автоопределение, работа в сложных акустических условиях.

Qwen3-ASR-Flash — сервис автоматического распознавания речи от Alibaba, построенный на фундаменте Qwen3-Omni и обученный на десятках миллионов часов мультимодальных речевых данных. Модель обрабатывает 11 языков — включая китайский (с диалектами кантонский, сычуаньский, миньнань и у), английский, арабский, французский, немецкий, испанский, итальянский, португальский, русский, японский и корейский — с автоматическим определением языка, что исключает необходимость ручной настройки для смешанных аудио.

Модель разработана для сложных акустических условий: транскрибирует текст песен поверх фоновой музыки, обрабатывает шумные и удалённые записи, фильтрует тишину и неречевое аудио, а также принимает произвольный контекстный текст (имена, жаргон, терминологию) для смещения распознавания в сторону конкретной лексики.

Ключевые характеристики:

  • 11 языков + диалекты: Китайский (4 диалекта), английский, арабский, французский, немецкий, испанский, итальянский, португальский, русский, японский, корейский
  • Автоопределение языка: Без ручной настройки
  • Сложные акустические условия: Музыка, шум, дальний звук
  • Фильтрация: Тишина и неречевое аудио
  • Контекстная подсказка: Имена, жаргон, терминология

Идеально подходит для:

  • Транскрибации музыкальных произведений
  • Обработки шумных и удалённых записей
  • Многоязычных проектов с автоопределением
  • Аудио с доменной терминологией
  • Профессиональной транскрипции в сложных условиях

Тарификация:

  • 31 Искра за час аудио

💡 Пример: 1 час аудио = 31 Искра

Дата релиза: 14 мая 2026 г.

🎙️ 11 языков + автоопределение + работа со сложным аудио