D

Data2vec Audio Large 10m

由facebook開發
Data2Vec是一個通用的自監督學習框架,適用於語音、視覺和語言任務。該音頻大模型基於Librispeech的10分鐘數據進行預訓練和微調,適用於16kHz採樣的語音音頻。
下載量 19
發布時間 : 4/2/2022

模型概述

Data2Vec-Audio-Large-10m是一個基於自監督學習的語音處理模型,主要用於語音識別任務。它採用統一的框架處理不同模態的數據,通過預測完整輸入數據的潛在表示來實現高效學習。

模型特點

統一的自監督學習框架
採用相同的學習方法處理語音、自然語言處理和計算機視覺任務,實現了跨模態的統一學習。
上下文相關的潛在表示預測
不同於預測局部性質的目標,該模型預測包含整個輸入信息的上下文相關潛在表示。
高性能表現
在語音識別、圖像分類和自然語言理解等主要基準測試中達到最優或競爭性表現。

模型能力

語音識別
音頻特徵提取

使用案例

語音處理
語音轉文本
將語音音頻轉換為文本內容
高準確率的語音識別結果
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase