D

Data2vec Audio Large 960h

Developed by facebook
Data2Vec是一個通用自監督學習框架,適用於語音、視覺和語言任務。該音頻大模型基於LibriSpeech的960小時語音數據預訓練和微調,專為自動語音識別任務優化。
Downloads 2,531
Release Time : 4/2/2022

Model Overview

基於Data2Vec框架的語音識別模型,使用自監督學習方法在LibriSpeech數據集上訓練,能夠將語音轉換為文本。

Model Features

通用自監督學習框架
採用統一的data2vec框架處理不同模態任務,通過預測完整輸入的潛在表徵而非局部目標實現
高性能語音識別
在LibriSpeech測試集上取得1.89(clean)和4.07(other)的WER指標
大規模訓練數據
基於960小時的LibriSpeech語音數據訓練

Model Capabilities

英語語音識別
音頻轉文本
16kHz採樣率音頻處理

Use Cases

語音轉錄
會議記錄轉錄
將會議錄音自動轉換為文字記錄
播客內容索引
為播客音頻創建可搜索的文字索引
輔助技術
聽力輔助
為聽障人士提供即時語音轉文字服務
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase