D

Data2vec Audio Large 100h

由facebook開發
Data2Vec是一個通用的自監督學習框架,適用於語音、自然語言處理和計算機視覺任務。該模型是基於Librispeech語音音頻進行100小時預訓練和微調的大模型。
下載量 46
發布時間 : 4/2/2022

模型概述

Data2Vec-Audio-Large-100h是一個基於自監督學習的語音識別模型,能夠處理16kHz採樣的語音音頻輸入,並輸出對應的文本轉錄。

模型特點

通用自監督學習框架
Data2Vec框架能夠以相同的學習方法處理語音、自然語言處理和計算機視覺任務,實現跨模態的統一學習。
自蒸餾設置
模型基於輸入數據的掩碼視圖,利用標準Transformer架構預測完整輸入數據的潛在表徵,而非局部性質的目標。
高性能
在語音識別、圖像分類和自然語言理解等主要基準測試中,該方法達到了新的最優性能或與主流方法競爭的水平。

模型能力

語音識別
音頻轉錄

使用案例

語音轉錄
音頻文件轉錄
將16kHz採樣的語音音頻文件轉錄為文本。
高準確率的文本輸出
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase