OmniAudio-2.6Bオープンソースオーディオ言語モデル - エッジデバイスでの高効率なデプロイ、テキストとオーディオ入力をサポート

ホーム

Omniaudio 2.6B

NexaAIDevによって開発

世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。

音声生成テキスト英語オープンソースライセンス:Apache-2.0 #エッジサイド音声処理 #低遅延対話 #オフライン音声Q&A

ダウンロード数 1,149

リリース時間 : 12/11/2024

モデル概要

OmniAudio-2.6Bは、Gemma-2-2b、Whisper turboおよびカスタム投影モジュールを統合した効率的なマルチモーダルモデルで、エッジデバイス上で直接安全かつ迅速な音声テキスト処理を実現します。

モデル特徴

エッジデバイス向け効率的なデプロイ

エッジデバイス向けに最適化され、最低限の遅延とリソース消費を実現。

マルチモーダル統合アーキテクチャ

ASRとLLMの機能を単一アーキテクチャに統合し、従来の直列方式の性能ボトルネックを回避。

卓越した推論速度

コンシューマーグレードのハードウェアで5.5倍から10.3倍の性能向上を実現。

モデル能力

音声テキスト変換

音声対話

創造的コンテンツ生成

録音要約

音声トーン調整

使用事例

オフライン音声インタラクション

ネットワーク未接続環境での検索

キャンプでの火起こし指導など、ネットワーク未接続環境での音声クエリを処理

実用的なガイダンスを提供

音声アシスタント

感情サポート対話

ユーザーが表現した感情に対して支持的に対応

積極的な傾聴と応答

コンテンツクリエーション

音声から詩生成

音声プロンプトをクリエイティブな作品に変換

詩的な返答を生成

オフィス効率化

会議録音の要約

長時間の録音を簡潔な要約に変換

実行可能な要約

🚀 OmniAudio-2.6B

OmniAudioは、デバイス上でのデプロイに最適化された、世界で最速かつ最も効率的なオーディオ言語モデルです。この26億パラメータのマルチモーダルモデルは、テキストとオーディオの両方の入力を処理することができます。Gemma-2-2b、Whisper turbo、およびカスタムプロジェクターモジュールの3つのコンポーネントを統合し、エッジデバイス上で直接、安全で応答性の高いオーディオテキスト処理を実現します。

従来のASRとLLMモデルを連鎖させるアプローチとは異なり、OmniAudio-2.6Bは単一の効率的なアーキテクチャで両方の機能を統合しており、レイテンシとリソースオーバーヘッドを最小限に抑えます。

Example

🚀 クイックスタート

クイックリンク

HuggingFace Spaceでのインタラクティブデモ
デバイスでの使用方法
ブログで詳細を学ぶ

フィードバック: モデルに関する質問や提案は、Discordで送ってください。

デモ

✨ 主な機能

消費者向けハードウェアでのパフォーマンスベンチマーク

2024年のMac Mini M4 Proでは、🤗 Transformers上で動作するQwen2-Audio-7B-Instructの平均デコード速度は6.38トークン/秒ですが、Nexa SDKを通じたOmni-Audio-2.6Bは、FP16 GGUFバージョンで35.23トークン/秒、Q4_K_M量子化GGUFバージョンで66トークン/秒に達し、消費者向けハードウェアで5.5倍から10.3倍の高速性能を発揮します。

ユースケース

インターネットなしでの音声QA: 「私はキャンプ中で、着火剤なしで火を起こすにはどうすればいいですか？」のようなオフラインの音声クエリを処理します。OmniAudioはネットワーク接続がなくても実用的なガイダンスを提供します。
音声対話: 個人的な体験について会話することができます。「私は仕事でつらい一日を過ごしています」と言うと、OmniAudioは支援的な話しかけとアクティブリスニングを行います。
創造的コンテンツ生成: 音声プロンプトを創造的な作品に変換します。「秋の葉についての俳句を書いて」と尋ねると、音声入力に触発された詩的な応答を受け取ります。
録音要約: 「この会議のメモを要約してくれますか？」とただ尋ねるだけで、長い録音を簡潔で実行可能な要約に変換します。
音声トーン変更: カジュアルな音声メモをプロフェッショナルなコミュニケーションに変換します。「この音声メモをもっとプロフェッショナルにしてくれますか？」と要求すると、OmniAudioはコアメッセージを保持しながらトーンを調整します。

📦 インストール

デバイスでの使用方法

ステップ1: Nexa-SDK（ローカルデバイス推論フレームワーク）をインストールする

🚀 Nexa-SDKをインストール

Nexa-SDKはオープンソースのローカルデバイス推論フレームワークで、テキスト生成、画像生成、ビジョン言語モデル（VLM）、オーディオ言語モデル、音声認識（ASR）、およびテキスト読み上げ（TTS）機能をサポートしています。Pythonパッケージまたは実行可能インストーラーを通じてインストールできます。

ステップ2: 次に、ターミナルで以下のコードを実行します。

nexa run omniaudio -st

💻 OmniAudio-2.6B q4_K_Mバージョンには、1.30GBのRAMと1.60GBのストレージ空間が必要です。

🔧 技術詳細

学習

OmniAudioは、3段階の学習パイプラインを通じて開発されました。

事前学習: 初期段階では、MLS English 10kトランスクリプションデータセットを使用して、コアオーディオテキストアライメントに焦点を当てています。特殊な<|transcribe|>トークンを導入して、モデルがトランスクリプションと完了タスクを区別できるようにし、ユースケース全体で一貫したパフォーマンスを確保します。
教師付き微調整（SFT）: MLS English 10kトランスクリプションから派生した合成データセットを使用して、モデルの会話能力を強化します。この段階では、独自のモデルを利用して文脈的に適切な応答を生成し、効果的な対話理解のための豊富なオーディオテキストペアを作成します。
直接嗜好最適化（DPO）: 最終段階では、GPT-4o APIを参照として使用してモデルの品質を洗練します。このプロセスでは、不正確な応答を特定して修正しながら、意味的なアライメントを維持します。さらに、Gemma2のテキスト応答をゴールドスタンダードとして利用して、オーディオとテキストの両方の入力にわたって一貫した品質を確保します。