🚀 葡萄牙语中型Whisper模型 🇧🇷🇵🇹
本模型可快速、可靠地将葡萄牙语音频转录为文本,在Common Voice 11数据集上,其最先进的词错误率(WER)仅为6.579,与之前最先进的wav2vec2模型相比,精度提高了2倍。与原始的whisper-medium模型相比,性能提升了1.2倍 🚀。
🚀 快速开始
如果你想快速、可靠地将葡萄牙语音频转录为文本,那么你来对地方了!
✨ 主要特性
以下表格展示了本模型与Hugging Face Hub上下载量最多的葡萄牙语自动语音识别模型的结果对比 🗣:
📦 安装指南
pip install git+https://github.com/huggingface/transformers --force-reinstall
pip install torch
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> import torch
>>> device = 0 if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(
... task="automatic-speech-recognition",
... model="jlondonobo/whisper-medium-pt",
... chunk_length_s=30,
... device=device,
... )
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="pt", task="transcribe")
>>> transcribe("audio.m4a")["text"]
'Eu falo português.'
高级用法
长文本转录
为了提高长文本转录的性能,你可以将Hugging Face模型转换为whisper
模型,并使用原论文的匹配算法。为此,你必须安装whisper
和@bayartsogt开发的一组工具。
pip install git+https://github.com/openai/whisper.git
pip install git+https://github.com/bayartsogt-ya/whisper-multiple-hf-datasets
然后转换Hugging Face模型并进行转录:
>>> import torch
>>> import whisper
>>> from multiple_datasets.hub_default_utils import convert_hf_whisper
>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> convert_hf_whisper("jlondonobo/whisper-medium-pt", "local_whisper_model.pt")
>>> model = whisper.load_model("local_whisper_model.pt", device=device)
>>> model.transcribe("long_audio.m4a", language="pt")["text"]
'Olá eu sou o José. Tenho 23 anos e trabalho...'
📚 详细文档
训练超参数
我们使用了以下超参数进行训练:
learning_rate
:1e-05
train_batch_size
:32
eval_batch_size
:16
seed
:42
optimizer
:Adam,其中betas=(0.9,0.999),epsilon=1e-08
lr_scheduler_type
:线性
lr_scheduler_warmup_steps
:500
training_steps
:5000
mixed_precision_training
:原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(WER) |
0.0698 |
1.09 |
1000 |
0.1876 |
7.189 |
0.0218 |
3.07 |
2000 |
0.2254 |
7.110 |
0.0053 |
5.06 |
3000 |
0.2711 |
6.969 |
0.0017 |
7.04 |
4000 |
0.3030 |
6.686 |
0.0005 |
9.02 |
5000 |
0.3205 |
6.579 🤗 |
框架版本
- Transformers 4.26.0.dev0
- Pytorch 1.13.0+cu117
- Datasets 2.7.1.dev0
- Tokenizers 0.13.2
📄 许可证
本项目采用Apache-2.0许可证。