🚀 德语微调版Wav2Vec2-XLS-R-300m模型
本项目基于Common Voice数据集,对facebook/wav2vec2-xls-r-300m模型进行德语微调。使用该模型时,请确保输入的语音采样率为16kHz。
在德语中,大小写区分十分重要(例如 “Sie” 和 “sie”)。为了让模型能够学习正确的大小写,我使用了包含大小写字母的词汇表来训练模型,这样就无需进行诸如真大小写处理(truecasing)之类的后处理操作。
🚀 快速开始
代码示例
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
speech, sr = sf.read('audio.wav')
input_values = processor(speech, return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)
💻 使用示例
基础用法
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
speech, sr = sf.read('audio.wav')
input_values = processor(speech, return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)
高级用法
目前暂无高级用法示例,你可以基于上述基础用法进行拓展。
📚 详细文档
预测结果对比
参考文本 |
预测文本 |
Die zoologische Einordnung der Spezies ist seit Jahrzehnten umstritten |
Die psoologische Einordnung der Spezies ist seit Jahrzehnten umstritten |
Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland |
Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland |
Er vertrat den Wahlkreis Donauwörth im Parlament |
Er vertrat den Wahlkreis DonauWört im Parlament |
Ich bin gespannt welche Lieder sie wählt |
Ich bin gespannt welche Lieder see wählt |
Eine allgemein verbindliche Definition gibt es nicht |
Eine allgemeinverbindliche Definition gibt es nicht |
⚠️ 重要提示
使用该模型时,请确保输入的语音采样率为16kHz。
💡 使用建议
由于德语大小写区分重要,该模型已考虑大小写信息,无需额外进行真大小写处理等后处理操作。