Q

Qwen Audio Nf4

Ostixe360によって開発
Qwen-Audio-nf4はQwen-Audioの量子化バージョンで、複数の音声入力とテキスト出力をサポートします
ダウンロード数 134
リリース時間 : 4/25/2024

モデル概要

Qwen-Audio-nf4はアリクラウドが開発した大規模音声言語モデルQwen-Audioの量子化バージョンで、複数の音声(話者音声、自然音、音楽、歌声など)とテキストを入力として受け取り、テキストを出力します。

モデル特徴

多種音声サポート
人声、自然音、音楽、歌など多様な音声タイプの処理をサポート
マルチタスク学習フレームワーク
30種類以上の異なる音声タスクをサポートするマルチタスク訓練フレームワークを採用
微調整不要
複数のベンチマークタスクでタスク固有の微調整なしでリーディング性能を達成
マルチターン対話サポート
音声理解、音楽鑑賞などのシナリオを含むマルチターン音声とテキストの対話をサポート

モデル能力

音声からテキストへの変換
多言語音声理解
音楽分析
音声推論
マルチターン音声-テキスト対話
音声ツール使用

使用事例

音声認識
音声文字起こし
話者音声をテキストに変換
Aishell1テストセットでSOTAを達成
環境音分析
自然音認識
環境中の自然音タイプを識別
cochlsceneテストセットでSOTAを達成
音楽理解
音楽記述生成
音楽に基づいて記述テキストを生成
ClothoAQAテストセットでSOTAを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase