Транскрибация текста на python с помощью модели Whisper -

05.11.2024

Whisper — это универсальная модель распознавания речи. Она обучается на большом наборе данных разнообразного аудио и является многозадачной моделью, которая может выполнять многоязычное распознавание речи, перевод речи и идентификацию языка.

Вы можете загрузить и установить (или обновить до) последнюю версию Whisper с помощью следующей команды:

!pip install -U openai-whisper
!pip install ffmpeg

В качестве альтернативы следующая команда извлечет и установит последний коммит из этого репозитория вместе с его зависимостями Python:

!pip install git+https://github.com/openai/whisper.git
!pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

!whisper --help

Можно распознавать файлы разных форматов и на разных языках, включая русский.

!whisper "vysotsky.mp3" --language 'Russian' --model medium
!whisper "russian.wav" --language 'Russian' --model medium

Параметр model	Диск	Оперативная Память	Скорость
tiny	39 M	~1 GB	~32x
base	74 M	~1 GB	~16x
small	244 M	~2 GB	~6x
medium	769 M	~5 GB	~2x
large	1550 M	~10 GB	1x

Примеры распознавания текста в режимах tiny и large. Скорость сильно отличается, но и качество тоже. Представлен небольшой один и тот же фрагмент текста из записи разговора с интершумом на диктофон.

tiny, 28 сек.
[00:00.000 —> 00:06.000] Пробзаку отбива, прощадарь и пожалеющей.
[00:06.000 —> 00:09.000] Вот, как вы поняли, да?
[00:09.000 —> 00:14.000] Вот, теперь с точки зрения, что вы беги в этой дабе?
[00:14.000 —> 00:19.000] Наши такие вонки, что мы передали документы, которые в нам зовутара,

large, 10 минут
[00:00.000 —> 00:06.000] Строк закон, спасибо, прочитали, руки пожали и пошли.
[00:06.000 —> 00:09.000] Вот, как вы поняли, да?
[00:09.000 —> 00:14.000] Вот, теперь с точки зрения, что мы видим в этой табличке?
[00:14.000 —> 00:19.000] Значит, Сергей Васильевич, мы передали документы, которые нам дал Вара.

Просмотры: 384

Транскрибация текста на python с помощью модели Whisper

Добавить комментарий Отменить ответ

Похожие статьи

Python. Cжимаем звуковую дорожку при помощи алгоритма PCA

Памятка-шпаргалка для Pandas Python

Размещение контента поверх ролика Youtube с примером