D

Dasheng Base

mispeechによって開発
大規模汎用音声エンコーダー、自己教師あり学習で訓練され、音声、音楽、環境音など多様な音声情報処理をサポート
ダウンロード数 273
リリース時間 : 6/6/2024

モデル概要

大声は大規模な自己教師あり学習タスクで訓練された汎用音声エンコーダーで、音声、音楽、環境音など多様な領域にわたる豊富な音声情報を捉えることを目的としています。

モデル特徴

大規模訓練
訓練データは272,356時間の多様な音声をカバー
マルチドメイン対応
音声、音楽、環境音など様々な音声タイプを処理可能
高性能
HEARベンチマークテストで顕著な性能向上を示し、従来の成果を超越

モデル能力

音声特徴抽出
音声分類
音楽分類
環境音分類
音声埋め込み生成

使用事例

音声処理
音声コマンド認識
音声コマンドを識別するために使用
Speech Commandsタスクで優れた性能
話者識別
異なる話者を識別するために使用
VoxLinguaタスクで優れた性能
音楽分析
音楽分類
音楽ジャンルを分類
音楽分類タスクで優れた性能
環境音分析
環境音分類
環境音を分類
環境音分類タスクで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase