🚀 葡萄牙語中型Whisper模型 🇧🇷🇵🇹
本模型可快速、可靠地將葡萄牙語音頻轉錄為文本,在Common Voice 11數據集上,其最先進的詞錯誤率(WER)僅為6.579,與之前最先進的wav2vec2模型相比,精度提高了2倍。與原始的whisper-medium模型相比,性能提升了1.2倍 🚀。
🚀 快速開始
如果你想快速、可靠地將葡萄牙語音頻轉錄為文本,那麼你來對地方了!
✨ 主要特性
以下表格展示了本模型與Hugging Face Hub上下載量最多的葡萄牙語自動語音識別模型的結果對比 🗣:
📦 安裝指南
pip install git+https://github.com/huggingface/transformers --force-reinstall
pip install torch
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> import torch
>>> device = 0 if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(
... task="automatic-speech-recognition",
... model="jlondonobo/whisper-medium-pt",
... chunk_length_s=30,
... device=device,
... )
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="pt", task="transcribe")
>>> transcribe("audio.m4a")["text"]
'Eu falo português.'
高級用法
長文本轉錄
為了提高長文本轉錄的性能,你可以將Hugging Face模型轉換為whisper
模型,並使用原論文的匹配算法。為此,你必須安裝whisper
和@bayartsogt開發的一組工具。
pip install git+https://github.com/openai/whisper.git
pip install git+https://github.com/bayartsogt-ya/whisper-multiple-hf-datasets
然後轉換Hugging Face模型並進行轉錄:
>>> import torch
>>> import whisper
>>> from multiple_datasets.hub_default_utils import convert_hf_whisper
>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> convert_hf_whisper("jlondonobo/whisper-medium-pt", "local_whisper_model.pt")
>>> model = whisper.load_model("local_whisper_model.pt", device=device)
>>> model.transcribe("long_audio.m4a", language="pt")["text"]
'Olá eu sou o José. Tenho 23 anos e trabalho...'
📚 詳細文檔
訓練超參數
我們使用了以下超參數進行訓練:
learning_rate
:1e-05
train_batch_size
:32
eval_batch_size
:16
seed
:42
optimizer
:Adam,其中betas=(0.9,0.999),epsilon=1e-08
lr_scheduler_type
:線性
lr_scheduler_warmup_steps
:500
training_steps
:5000
mixed_precision_training
:原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(WER) |
0.0698 |
1.09 |
1000 |
0.1876 |
7.189 |
0.0218 |
3.07 |
2000 |
0.2254 |
7.110 |
0.0053 |
5.06 |
3000 |
0.2711 |
6.969 |
0.0017 |
7.04 |
4000 |
0.3030 |
6.686 |
0.0005 |
9.02 |
5000 |
0.3205 |
6.579 🤗 |
框架版本
- Transformers 4.26.0.dev0
- Pytorch 1.13.0+cu117
- Datasets 2.7.1.dev0
- Tokenizers 0.13.2
📄 許可證
本項目採用Apache-2.0許可證。