P

Phi 4 Multimodal Instruct

microsoftによって開発
Phi-4-multimodal-instructは、軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究データを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。
ダウンロード数 584.02k
リリース時間 : 2/24/2025

モデル概要

このモデルは多言語およびマルチモーダル入力をサポートし、テキスト、視覚、音声処理タスクに適しており、特にメモリ/計算リソースが制限された環境や低遅延シナリオに最適です。

モデル特徴

マルチモーダルサポート
テキスト、画像、音声入力をサポートし、テキスト出力を生成し、マルチモーダル情報を統一的に処理します。
多言語能力
複数言語のテキスト処理および音声認識/翻訳をサポートします。
軽量設計
メモリ/計算リソースが制限された環境や低遅延シナリオに適しています。
強力な推論能力
数学と論理的推論において優れた性能を発揮します。
関数とツール呼び出し
関数呼び出しとツール統合をサポートします。

モデル能力

テキスト生成
画像理解
音声認識
音声翻訳
音声要約
音声理解
視覚的質問応答
光学文字認識
グラフと表の理解
複数画像比較
複数画像または動画クリップの要約

使用事例

音声処理
音声文字起こし
音声をテキストに変換
単語誤り率が6.14%まで低減
音声翻訳
音声を他の言語に翻訳
複数言語間の相互翻訳をサポート
音声要約
音声コンテンツの要約を生成
GPT4oに近い性能
視覚処理
視覚的質問応答
画像内容に関する質問に回答
複数のベンチマークで優れた性能
数学問題解決
画像入力を通じて数学問題を解決
画像方程式の処理と解決能力を展示
インテリジェントエージェント
タスク実行
複雑なシナリオで推論とタスク実行能力を展示
マルチモーダル入力を処理するインテリジェントエージェントとして機能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase