wav2vec2-large-xlsr-53-german-gpt2開源模型 - 精準實現德語自動語音識別

Home

Wav2vec2 Large Xlsr 53 German Gpt2

Developed by jsnfly

這是一個基於MOZILLA-FOUNDATION/COMMON_VOICE_7_0德語數據集訓練的自動語音識別編碼器-解碼器模型，結合了Wav2Vec2和GPT2架構的優勢。

語音識別

Transformers

GermanOpen Source License:Apache-2.0 #德語語音識別 #低詞錯誤率(10.02WER)#編碼器-解碼器架構

Downloads 28

Release Time : 3/2/2022

Model Overview

該模型用於德語自動語音識別任務，通過結合Wav2Vec2的編碼器能力和GPT2的解碼器能力，實現高效的語音轉文本功能。

Model Features

兩階段訓練

先微調交叉注意力權重和解碼器，再進行端到端微調，平衡訓練效率和模型性能

位置嵌入優化

向編碼器輸出添加位置嵌入並用GPT2預訓練的位置嵌入初始化，顯著提升性能

資源高效

第一階段訓練適用於小型GPU（如8GB顯存），便於資源有限的場景使用

Model Capabilities

德語語音識別

高精度語音轉文本

Use Cases

語音轉錄

德語語音轉文字

將德語語音內容轉換為文本

在Common Voice 7德語測試集上達到10.02%的詞錯誤率(WER)

語音助手

德語語音指令識別

識別和理解德語語音指令

屬性	詳情
模型類型	用於自動語音識別的編碼器 - 解碼器模型
訓練數據	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - DE 數據集

任務	數據集	指標	值
自動語音識別	Common Voice 7（德語）	測試字錯率（WER）	10.02
自動語音識別	Common Voice 7（德語）	測試字符錯誤率（CER）	4.7

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 Large Xlsr 53 German Gpt2

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Wav2Vec2-Large-XLSR-53-German-GPT2

✨ 主要特性

📚 詳細文檔

模型信息

評估指標

訓練說明

📄 許可證