P

Phi 4 Multimodal Instruct

mjtechguyによって開発
Phi-4-multimodal-instructは、テキスト、画像、音声入力をサポートし、テキスト出力を生成する軽量オープンソースのマルチモーダル基盤モデルで、128Kトークンのコンテキスト長を備えています。
ダウンロード数 18
リリース時間 : 2/28/2025

モデル概要

このモデルは、Phi-3.5および4.0モデルの言語、視覚、音声研究データを統合し、教師あり微調整、直接選好最適化、人間フィードバック強化学習(RLHF)による強化プロセスを通じて、指示追従の正確性と安全対策において優れた性能を発揮します。

モデル特徴

マルチモーダルサポート
テキスト、画像、音声入力をサポートし、テキスト出力を生成、128Kトークンのコンテキスト長を備えています。
多言語サポート
多様な言語のテキスト、視覚、音声処理をサポートし、世界の主要言語をカバーします。
高性能
自動音声認識および音声翻訳タスクにおいてWhisperV3およびSeamlessM4T-v2-Largeを上回り、Huggingface OpenASRランキングで1位を獲得。
軽量
メモリ/計算リソースが制限された環境や遅延に敏感なシナリオに適しています。

モデル能力

テキスト生成
画像理解
音声認識
音声翻訳
音声要約
視覚的質問応答
光学文字認識
チャートと表の理解
複数画像の比較
複数画像または動画クリップの要約
音声理解

使用事例

ビジネスアプリケーション
インテリジェントカスタマーサービス
マルチモーダル入力による正確なカスタマーサービス応答を提供。
音声翻訳
音声を複数の言語にリアルタイムで翻訳し、異言語間コミュニケーションをサポート。
教育
視覚的数学問題解決
画像入力により複雑な数学問題を解決。
多言語学習
多言語テキストおよび音声の学習支援をサポート。
研究
マルチモーダル研究
マルチモーダルモデルの研究および開発に使用。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase