D

Dasheng 1.2B

由mispeech開發
大聲是一個基於大規模自監督學習訓練的通用音頻編碼器,能夠捕捉跨語音、音樂和環境音等多領域的豐富音頻信息。
下載量 135
發布時間 : 6/6/2024

模型概述

大聲是一個12億參數規模的通用音頻編碼器,通過272,356小時的多樣化音頻訓練,在語音、音樂和環境音分類任務中表現優異。

模型特點

大規模訓練
使用272,356小時的多樣化音頻數據進行訓練
多領域適用
能夠處理語音、音樂和環境音等多種音頻類型
高性能
在HEAR基準測試中超越先前成果,在多個任務上表現優異
通用編碼器
可提取適用於多種下游任務的音頻嵌入特徵

模型能力

音頻特徵提取
語音分類
音樂分類
環境音分類
音頻嵌入生成

使用案例

語音處理
語音命令識別
識別短語音命令
在Speech Commands任務上表現優異
說話人計數
統計音頻中的說話人數量
在LibriCount任務上取得良好效果
音樂分析
音樂分類
對音樂片段進行分類
在音樂分類任務中表現優異
環境音分析
環境音識別
識別環境中的各種聲音
在環境音分類任務中表現良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase