W

Wav2vec2 Base 960h

由tommy19970714開發
Wav2Vec2是一個基於自監督學習的語音識別模型,由Facebook開發,在LibriSpeech數據集上訓練,支持英語語音轉文本任務。
下載量 19
發布時間 : 3/2/2022

模型概述

該模型是一個自動語音識別(ASR)系統,能夠將英語語音轉換為文本。基於Transformer架構,通過960小時的LibriSpeech數據訓練。

模型特點

自監督學習
採用自監督學習方法預訓練,減少了對手動標註數據的依賴
高準確率
在LibriSpeech測試集上達到3.4% (clean)和8.6% (other)的詞錯誤率(WER)
端到端訓練
直接從原始音頻學習,無需傳統語音識別系統中的獨立組件

模型能力

英語語音識別
音頻轉文本
語音轉錄

使用案例

語音轉寫
會議記錄
自動轉錄會議錄音
準確率取決於音頻質量,在清晰語音上可達96.6%
播客轉錄
將播客內容轉換為文本
輔助技術
即時字幕生成
為視頻或直播生成即時字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase