Dasheng Base
大規模汎用音声エンコーダー、自己教師あり学習で訓練され、音声、音楽、環境音など多様な音声情報処理をサポート
ダウンロード数 273
リリース時間 : 6/6/2024
モデル概要
大声は大規模な自己教師あり学習タスクで訓練された汎用音声エンコーダーで、音声、音楽、環境音など多様な領域にわたる豊富な音声情報を捉えることを目的としています。
モデル特徴
大規模訓練
訓練データは272,356時間の多様な音声をカバー
マルチドメイン対応
音声、音楽、環境音など様々な音声タイプを処理可能
高性能
HEARベンチマークテストで顕著な性能向上を示し、従来の成果を超越
モデル能力
音声特徴抽出
音声分類
音楽分類
環境音分類
音声埋め込み生成
使用事例
音声処理
音声コマンド認識
音声コマンドを識別するために使用
Speech Commandsタスクで優れた性能
話者識別
異なる話者を識別するために使用
VoxLinguaタスクで優れた性能
音楽分析
音楽分類
音楽ジャンルを分類
音楽分類タスクで優れた性能
環境音分析
環境音分類
環境音を分類
環境音分類タスクで優れた性能
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98