A

Aero 1 Audio

lmms-labによって開発
軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる
ダウンロード数 1,348
リリース時間 : 4/25/2025

モデル概要

Qwen-2.5-1.5B言語モデルを基に構築された軽量級オーディオモデルで、複数のオーディオベンチマークテストで優れた性能を発揮し、15分間の連続オーディオ入力を正確に処理可能。

モデル特徴

パラメータ効率
Whisper、Qwen-2-Audio、Phi-4-Multimodalなどの大規模モデルやElevenLabs/Scribeなどの商業サービスと比較しても、パラメータ効率を維持。
高い訓練効率
H100 GPU16枚と5万時間のオーディオデータのみで1日以内に訓練を完了。高品質なフィルタリングデータにより訓練サンプル効率が大幅に向上。
長音声処理能力
15分間の連続オーディオ入力(ASRと意味理解を含む)を正確に処理可能。現在の多くのモデルはこのシナリオでまだ課題を抱えている。

モデル能力

音声認識
オーディオ理解
オーディオ命令実行

使用事例

音声文字起こし
オーディオコンテンツ文字起こし
オーディオコンテンツをテキストに文字起こし
15分間の連続オーディオ入力を正確に処理
オーディオ理解
オーディオ意味理解
オーディオ内の意味内容を理解
複数のオーディオベンチマークテストで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase