🚀 德語微調版Wav2Vec2-XLS-R-300m模型
本項目基於Common Voice數據集,對facebook/wav2vec2-xls-r-300m模型進行德語微調。使用該模型時,請確保輸入的語音採樣率為16kHz。
在德語中,大小寫區分十分重要(例如 “Sie” 和 “sie”)。為了讓模型能夠學習正確的大小寫,我使用了包含大小寫字母的詞彙表來訓練模型,這樣就無需進行諸如真大小寫處理(truecasing)之類的後處理操作。
🚀 快速開始
代碼示例
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
speech, sr = sf.read('audio.wav')
input_values = processor(speech, return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)
💻 使用示例
基礎用法
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
speech, sr = sf.read('audio.wav')
input_values = processor(speech, return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)
高級用法
目前暫無高級用法示例,你可以基於上述基礎用法進行拓展。
📚 詳細文檔
預測結果對比
參考文本 |
預測文本 |
Die zoologische Einordnung der Spezies ist seit Jahrzehnten umstritten |
Die psoologische Einordnung der Spezies ist seit Jahrzehnten umstritten |
Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland |
Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland |
Er vertrat den Wahlkreis Donauwörth im Parlament |
Er vertrat den Wahlkreis DonauWört im Parlament |
Ich bin gespannt welche Lieder sie wählt |
Ich bin gespannt welche Lieder see wählt |
Eine allgemein verbindliche Definition gibt es nicht |
Eine allgemeinverbindliche Definition gibt es nicht |
⚠️ 重要提示
使用該模型時,請確保輸入的語音採樣率為16kHz。
💡 使用建議
由於德語大小寫區分重要,該模型已考慮大小寫信息,無需額外進行真大小寫處理等後處理操作。