🚀 海地语音转文本模型
本项目提供了一个针对海地语微调的Whisper自动语音识别(ASR)模型,可有效将海地语语音准确转录为文本,在海地语语音处理领域具有重要实用价值。
🚀 快速开始
你可以直接从Hugging Face模型中心使用此模型。以下是一个简单的Python示例:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
processor = WhisperProcessor.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
model = WhisperForConditionalGeneration.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
sample_path = "path/to/audio.wav"
waveform, sample_rate = torchaudio.load(sample_path)
if sample_rate != 16000:
resampler = torchaudio.transforms.Resample(sample_rate, 16000)
waveform = resampler(waveform)
sample_rate = 16000
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0, keepdim=True)
input_features = processor(waveform.numpy(), sampling_rate=sample_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
✨ 主要特性
- 该模型针对海地语进行了微调,能够更好地适应海地语的语音特点和语言习惯,实现更准确的语音转录。
- 模型托管在Hugging Face上,方便用户直接从模型中心获取和使用。
📦 安装指南
文档未提及具体安装步骤,若要使用此模型,可参考上述使用示例中的代码,确保安装了transformers
和torchaudio
库。
💻 使用示例
基础用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
processor = WhisperProcessor.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
model = WhisperForConditionalGeneration.from_pretrained("ZeeshanGeoPk/haitian-speech-to-text")
sample_path = "path/to/audio.wav"
waveform, sample_rate = torchaudio.load(sample_path)
if sample_rate != 16000:
resampler = torchaudio.transforms.Resample(sample_rate, 16000)
waveform = resampler(waveform)
sample_rate = 16000
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0, keepdim=True)
input_features = processor(waveform.numpy(), sampling_rate=sample_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
高级用法
文档未提及高级用法相关内容。
📚 详细文档
性能表现
该模型的单词错误率(WER)达到了0.19126,这表明它在将海地语口语转录为书面文本方面具有较高的准确性。
训练情况
该模型在训练时使用的学习率为1e - 5。
📄 许可证
本项目采用Apache - 2.0许可证。