Whisper — это универсальная модель распознавания речи. Она обучается на большом наборе данных разнообразного аудио и является многозадачной моделью, которая может выполнять многоязычное распознавание речи, перевод речи и идентификацию языка.
Вы можете загрузить и установить (или обновить до) последнюю версию Whisper с помощью следующей команды:
!pip install -U openai-whisper !pip install ffmpeg
В качестве альтернативы следующая команда извлечет и установит последний коммит из этого репозитория вместе с его зависимостями Python:
!pip install git+https://github.com/openai/whisper.git !pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg
!whisper --help
Можно распознавать файлы разных форматов и на разных языках, включая русский.
!whisper "vysotsky.mp3" --language 'Russian' --model medium !whisper "russian.wav" --language 'Russian' --model medium
Параметр model | Диск | Оперативная Память | Скорость |
---|---|---|---|
tiny | 39 M | ~1 GB | ~32x |
base | 74 M | ~1 GB | ~16x |
small | 244 M | ~2 GB | ~6x |
medium | 769 M | ~5 GB | ~2x |
large | 1550 M | ~10 GB | 1x |
Примеры распознавания текста в режимах tiny и large. Скорость сильно отличается, но и качество тоже. Представлен небольшой один и тот же фрагмент текста из записи разговора с интершумом на диктофон.
tiny, 28 сек.
[00:00.000 —> 00:06.000] Пробзаку отбива, прощадарь и пожалеющей.
[00:06.000 —> 00:09.000] Вот, как вы поняли, да?
[00:09.000 —> 00:14.000] Вот, теперь с точки зрения, что вы беги в этой дабе?
[00:14.000 —> 00:19.000] Наши такие вонки, что мы передали документы, которые в нам зовутара,
large, 10 минут
[00:00.000 —> 00:06.000] Строк закон, спасибо, прочитали, руки пожали и пошли.
[00:06.000 —> 00:09.000] Вот, как вы поняли, да?
[00:09.000 —> 00:14.000] Вот, теперь с точки зрения, что мы видим в этой табличке?
[00:14.000 —> 00:19.000] Значит, Сергей Васильевич, мы передали документы, которые нам дал Вара.