P

Phi 3 Vision 128k Instruct

microsoftによって開発
Phi-3-Vision-128K-Instructは、軽量で最先端のオープンマルチモーダルモデルで、128Kトークンの文脈長をサポートし、テキストと視覚領域の高品質な推論に焦点を当てています。
ダウンロード数 25.19k
リリース時間 : 5/19/2024

モデル概要

このモデルはPhi-3シリーズに属し、マルチモーダル入力(テキストと画像)をサポートし、英語環境でのビジネスおよび研究用途に適しており、特にメモリ/計算が制限された環境や遅延に敏感なシナリオに最適です。

モデル特徴

マルチモーダルサポート
テキストと画像入力をサポートし、画像内容を理解して関連するテキスト記述を生成できます。
長文脈サポート
128Kトークンの文脈長をサポートし、長文や複雑なタスクの処理に適しています。
軽量設計
モデルパラメータ規模が適度で、メモリ/計算が制限された環境や遅延に敏感なシナリオに適しています。
高品質なトレーニングデータ
トレーニングデータには合成データと精選された公開ウェブサイトコンテンツが含まれ、高品質で推論密度の高いデータに焦点を当てています。

モデル能力

テキスト生成
画像理解
光学文字認識(OCR)
チャートと表の理解

使用事例

一般的な画像理解
画像記述生成
入力された画像に基づいて詳細なテキスト記述を生成します。
正確で詳細な画像記述を生成し、アクセシビリティアプリケーションやコンテンツ管理に適しています。
ドキュメント処理
チャート理解
チャート内の情報を解析し、要約や分析を生成します。
チャート内のデータとトレンドを正確に識別し、有用な分析レポートを生成できます。
表の理解
表から情報を抽出し、構造化データや要約を生成します。
表データを効率的に抽出し、データ分析やレポート生成に適しています。
ビジネスアプリケーション
会議準備分析
会議準備状況のチャートデータを分析し、要約と提案を生成します。
議論すべき問題と提案を深く提供し、会議効率の改善に役立ちます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase