🚀 威仕普大模型V3 - 罗马化泰卢固语口语识别模型
本模型是基于 openai/whisper-large-v3 在泰卢固语罗马化1.0数据集上进行微调的版本。它能有效解决泰卢固语口语识别及转写问题,为泰卢固语语音处理提供了高效准确的解决方案。
🚀 快速开始
本模型是 openai/whisper-large-v3 在泰卢固语罗马化1.0数据集上的微调版本。在评估集上取得了以下结果:
- 评估损失(eval_loss):1.5009
- 评估字错率(eval_wer):68.1275
- 评估运行时间(eval_runtime):591.6137
- 每秒评估样本数(eval_samples_per_second):0.798
- 每秒评估步数(eval_steps_per_second):0.1
- 训练轮数(epoch):8.6207
- 训练步数(step):1000
✨ 主要特性
- 针对性训练:该模型经过专门训练,可将泰卢固语对话转录为罗马化文字,这种文字是大多数人日常生活中常用的书写形式。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "jayasuryajsk/whisper-large-v3-Telugu-Romanized"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
max_new_tokens=128,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
result = pipe("recording.mp3", generate_kwargs={"language": "english"})
print(result["text"])
你可以在 这里 进行尝试。
📚 详细文档
预期用途与局限性
- 局限性:有时,模型会直接将音频翻译成英语,目前正在努力修复这个问题。
训练和评估数据
使用GPT 4 API将 google-fleurs
泰卢固语标签转换为罗马化文字。由于文字是英文字母,因此使用英语分词器来训练模型。
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):1e-05
- 训练批次大小(train_batch_size):20
- 评估批次大小(eval_batch_size):8
- 随机种子(seed):42
- 优化器(optimizer):Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练步数(training_steps):2000
- 混合精度训练(mixed_precision_training):Native AMP
框架版本
- Transformers:4.40.1
- Pytorch:2.2.0+cu121
- Datasets:2.19.1
- Tokenizers:0.19.1
📄 许可证
本模型采用Apache 2.0许可证。
属性 |
详情 |
模型类型 |
基于openai/whisper-large-v3微调的语音识别模型 |
训练数据 |
jayasuryajsk/google-fleurs-te-romanized |