P

Phi 3.5 Vision Instruct

FriendliAIによって開発
Phi-3.5-visionは、軽量で先進的なオープンソースのマルチモーダルモデルで、128Kのコンテキスト長をサポートし、高品質で推論に富んだテキストとビジュアルデータの処理に特化しています。
ダウンロード数 370
リリース時間 : 3/4/2025

モデル概要

Phi-3モデルファミリーのマルチモーダルバージョンで、厳格な強化プロセスを経て、監督微調整と直接的な嗜好最適化を組み合わせることで、正確な指示の遵守と強力なセキュリティ対策を確保しています。

モデル特徴

マルチモーダルサポート
テキストと画像の入力を同時に処理し、複数フレームの画像理解と推論をサポートします。
長いコンテキスト処理
128Kトークンのコンテキスト長をサポートし、長いドキュメントと複数画像の入力の処理に適しています。
軽量で効率的
メモリ/計算が制限された環境と低遅延シナリオに最適化されています。
セキュリティアライメント
厳格なセキュリティ事後学習を経て、有害な内容の生成リスクを低減しています。

モデル能力

一般的な画像理解
光学文字認識
グラフと表の理解
複数画像の比較
複数画像またはビデオクリップの要約
テキスト生成
ビジュアル推論

使用事例

オフィス自動化
スライド要約
プレゼンテーションの内容を自動的に分析して要約します。
重要な情報を正確に抽出し、簡潔な要約を生成することができます。
ドキュメント理解
PDF、PPTなどのドキュメント内のテキストとグラフを解析します。
TextVQAベンチマークテストで72.0点を達成しました。
教育
科学問題解答
画像に基づく科学問題に回答します。
ScienceQAテストセットで91.3%の正解率を達成しました。
数学推論
ビジュアル数学問題を解きます。
MathVistaテストセットで43.9点を達成しました。
コンテンツ分析
ビデオ要約
短いビデオコンテンツの要約を生成します。
Video - MMEベンチマークテストで短いビデオ処理の得点が60.8です。
画像比較
複数の画像の類似点と相違点を分析します。
多視点推論タスクで54.1点を得ました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase