W

Wav2vec2 Large Xlsr 53 German

由jonatasgrosman開發
這是一個針對德語語音識別任務微調的XLSR-53大模型,基於Facebook的wav2vec2-large-xlsr-53模型,在Common Voice 6.1德語數據集上進行了微調。
下載量 8,266
發布時間 : 3/2/2022

模型概述

該模型專門用於德語自動語音識別(ASR),能夠將德語語音轉換為文本,支持16kHz採樣率的音頻輸入。

模型特點

高性能德語識別
在Common Voice德語測試集上達到12.06%的詞錯誤率(WER)和2.92%的字符錯誤率(CER)
支持語言模型增強
結合語言模型後,WER可降至8.74%,CER降至2.28%,顯著提升識別準確率
基於XLSR-53架構
利用跨語言語音表示學習的大規模預訓練模型,具有強大的語音特徵提取能力
易於集成
提供HuggingSound庫和自定義腳本兩種使用方式,方便快速集成到應用中

模型能力

德語語音識別
音頻轉文本
支持16kHz採樣率音頻處理

使用案例

語音轉錄
德語語音轉文字
將德語語音內容自動轉換為文本格式
在標準測試集上達到12.06%的詞錯誤率
語音助手
德語語音指令識別
用於德語語音助手或控制系統的語音指令識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase