wav2vec2-large-xlsr-53-german-gpt2開源模型 - 精準實現德語自動語音識別

首頁

Wav2vec2 Large Xlsr 53 German Gpt2

由jsnfly開發

這是一個基於MOZILLA-FOUNDATION/COMMON_VOICE_7_0德語數據集訓練的自動語音識別編碼器-解碼器模型，結合了Wav2Vec2和GPT2架構的優勢。

語音識別

Transformers

德語開源協議:Apache-2.0 #德語語音識別 #低詞錯誤率(10.02WER)#編碼器-解碼器架構

下載量 28

發布時間 : 3/2/2022

模型概述

該模型用於德語自動語音識別任務，通過結合Wav2Vec2的編碼器能力和GPT2的解碼器能力，實現高效的語音轉文本功能。

模型特點

兩階段訓練

先微調交叉注意力權重和解碼器，再進行端到端微調，平衡訓練效率和模型性能

位置嵌入優化

向編碼器輸出添加位置嵌入並用GPT2預訓練的位置嵌入初始化，顯著提升性能

資源高效

第一階段訓練適用於小型GPU（如8GB顯存），便於資源有限的場景使用

模型能力

德語語音識別

高精度語音轉文本

使用案例

語音轉錄

德語語音轉文字

將德語語音內容轉換為文本

在Common Voice 7德語測試集上達到10.02%的詞錯誤率(WER)

語音助手

德語語音指令識別

識別和理解德語語音指令

屬性	詳情
模型類型	用於自動語音識別的編碼器 - 解碼器模型
訓練數據	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - DE 數據集

任務	數據集	指標	值
自動語音識別	Common Voice 7（德語）	測試字錯率（WER）	10.02
自動語音識別	Common Voice 7（德語）	測試字符錯誤率（CER）	4.7

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Large Xlsr 53 German Gpt2

模型概述

模型特點

模型能力

使用案例

🚀 Wav2Vec2-Large-XLSR-53-German-GPT2

✨ 主要特性

📚 詳細文檔

模型信息

評估指標

訓練說明

📄 許可證