W

Wav2vec2 Conformer Rel Pos Large 100h Ft

由facebook開發
採用相對位置嵌入技術的Wav2Vec2-Conformer大型語音識別模型,基於Librispeech 100小時語音數據微調
下載量 99
發布時間 : 4/18/2022

模型概述

這是一個基於Wav2Vec2-Conformer架構的自動語音識別(ASR)模型,採用相對位置嵌入技術,在Librispeech 100小時語音數據上微調,適用於16kHz採樣率的英語語音識別任務。

模型特點

相對位置嵌入
採用相對位置嵌入技術,可能提升長序列語音識別的性能
Conformer架構
結合Transformer和CNN的優點,能同時捕捉局部和全局語音特徵
高效訓練
基於Librispeech 100小時數據微調,相比完整960小時數據訓練更高效

模型能力

英語語音識別
16kHz採樣率音頻處理

使用案例

語音轉文字
會議記錄
將英語會議錄音自動轉換為文字記錄
播客轉錄
將英語播客內容轉錄為文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase