P

Phi 3.5 Vision Instruct

microsoftによって開発
Phi-3.5-visionは、軽量で最先端のオープンマルチモーダルモデルで、128Kのコンテキスト長をサポートし、高品質で推論に富んだテキストと視覚データに焦点を当てています。
ダウンロード数 397.38k
リリース時間 : 8/16/2024

モデル概要

このモデルはPhi-3モデルファミリーに属し、マルチモーダル入力をサポートし、画像理解、OCR、チャートや表の理解などのタスクに適しています。監督された微調整と直接選好最適化を経て、正確な指示の遵守と安全対策が確保されています。

モデル特徴

マルチモーダルサポート
画像とテキストの共同処理をサポートし、視覚コンテンツを理解して関連するテキスト応答を生成できます。
長文コンテキストサポート
128Kのコンテキスト長(トークン単位)をサポートし、長文ドキュメントや複数画像入力の処理に適しています。
軽量設計
メモリと計算が制限された環境向けに最適化されており、遅延に敏感なシナリオに適しています。
複数フレーム画像理解
複数画像の比較、要約、動画クリップの理解をサポートし、複雑な視覚タスクに適しています。

モデル能力

汎用画像理解
光学文字認識(OCR)
チャートと表の理解
複数画像比較
複数画像または動画クリップ要約
テキスト生成

使用事例

オフィスシナリオ
スライド要約
PPTスライドの内容を自動分析して要約します。
最大20フレームの連続したスライド入力を処理できます。
ドキュメント理解
テキストと画像を含む複雑なドキュメントを解析します。
TextVQAベンチマークで72.0の精度を達成しました。
視覚推論
画像比較
複数の画像の類似点と相違点を比較します。
BLINKベンチマークの視覚的類似性タスクで83.0点を達成しました。
動画要約
動画クリップから重要な情報を抽出して要約を生成します。
Video-MMEベンチマークで短編動画処理60.8点を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase