D

Dasheng Base

由mispeech開發
大規模通用音頻編碼器,通過自監督學習訓練,支持語音、音樂和環境音等多領域音頻信息處理
下載量 273
發布時間 : 6/6/2024

模型概述

大聲是一個基於大規模自監督學習任務訓練的通用音頻編碼器,旨在捕捉跨語音、音樂和環境音等多領域的豐富音頻信息。

模型特點

大規模訓練
訓練數據涵蓋272,356小時多樣化音頻
多領域適用
能夠處理語音、音樂和環境音等多種音頻類型
高性能表現
在HEAR基準測試中展現出顯著性能提升,超越先前成果

模型能力

音頻特徵提取
語音分類
音樂分類
環境音分類
音頻嵌入生成

使用案例

語音處理
語音命令識別
用於識別語音命令
在Speech Commands任務上表現優異
說話人識別
用於識別不同說話人
在VoxLingua任務上表現優異
音樂分析
音樂分類
對音樂類型進行分類
在音樂分類任務中表現優異
環境音分析
環境音分類
對環境聲音進行分類
在環境音分類任務中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase