wav2vec2-xlsr-300m-german-truecase開源模型 - 免費實現德語語音識別並保留大小寫

首頁

Wav2vec2 Xlsr 300m German Truecase

由abnerh開發

基於Facebook的wav2vec2-xls-r-300m模型，在Common Voice德語數據集上微調，支持德語語音識別並保留文本大小寫信息。

語音識別

Transformers

#德語語音識別 #真實大小寫輸出 #16kHz採樣率

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是一個德語自動語音識別(ASR)系統，特別處理了德語中的大小寫問題，可直接輸出符合德語語法的大小寫文本，無需後處理。

模型特點

真實大小寫處理

模型直接學習德語大小寫規則，輸出符合語法的大小寫文本，無需額外後處理

基於Common Voice微調

使用高質量的開源德語語音數據集進行微調，提升德語識別準確率

16kHz採樣率支持

優化處理16kHz採樣率的語音輸入，適合常見語音應用場景

模型能力

德語語音轉文本

自動大小寫轉換

連續語音識別

使用案例

語音轉錄

會議記錄自動化

將德語會議錄音自動轉為帶正確大小寫的文字記錄

減少人工轉錄工作量，保持專業文檔格式

字幕生成

為德語視頻內容生成帶正確大小寫的字幕

提高字幕專業性和可讀性

語音助手

德語語音指令識別

在智能家居或客服系統中識別德語語音命令

準確理解包含大小寫差異的德語指令

🚀 德語微調版Wav2Vec2-XLS-R-300m模型

本項目基於Common Voice數據集，對facebook/wav2vec2-xls-r-300m模型進行德語微調。使用該模型時，請確保輸入的語音採樣率為16kHz。

在德語中，大小寫區分十分重要（例如 “Sie” 和 “sie”）。為了讓模型能夠學習正確的大小寫，我使用了包含大小寫字母的詞彙表來訓練模型，這樣就無需進行諸如真大小寫處理（truecasing）之類的後處理操作。

🚀 快速開始

代碼示例

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")

speech, sr = sf.read('audio.wav') 
# 進行分詞
input_values = processor(speech, return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# 打印轉錄結果
print(transcription)

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")

speech, sr = sf.read('audio.wav') 
# 進行分詞
input_values = processor(speech, return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# 打印轉錄結果
print(transcription)

高級用法

目前暫無高級用法示例，你可以基於上述基礎用法進行拓展。

📚 詳細文檔

預測結果對比

參考文本	預測文本
Die zoologische Einordnung der Spezies ist seit Jahrzehnten umstritten	Die psoologische Einordnung der Spezies ist seit Jahrzehnten umstritten
Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland	Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland
Er vertrat den Wahlkreis Donauwörth im Parlament	Er vertrat den Wahlkreis DonauWört im Parlament
Ich bin gespannt welche Lieder sie wählt	Ich bin gespannt welche Lieder see wählt
Eine allgemein verbindliche Definition gibt es nicht	Eine allgemeinverbindliche Definition gibt es nicht