W

Wav2vec2 Conformer Rel Pos Large 960h Ft

由facebook開發
基於16kHz採樣語音音頻的Wav2Vec2-Conformer模型,採用相對位置嵌入技術,在960小時Librispeech數據上預訓練和微調
下載量 1,038
發布時間 : 4/18/2022

模型概述

這是一個用於自動語音識別(ASR)的Conformer架構模型,支持英語語音轉錄,具有高準確率和低詞錯誤率(WER)

模型特點

相對位置嵌入
採用相對位置嵌入技術,提高了模型對語音序列位置關係的建模能力
高準確率
在LibriSpeech測試集上達到1.85(clean)和3.83(other)的詞錯誤率(WER)
大規模訓練
基於960小時的LibriSpeech語音數據進行預訓練和微調

模型能力

英語語音識別
16kHz音頻處理
長序列語音轉錄

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字
高準確率的轉錄文本
語音筆記轉換
將語音筆記轉換為可編輯的文本
輔助技術
即時字幕生成
為視頻或直播內容生成即時字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase