P

Phi 3 Vision 128k Instruct

Developed by microsoft
Phi-3-Vision-128K-Instruct是一个轻量级、前沿的开放多模态模型,支持128K令牌的上下文长度,专注于文本和视觉领域的高质量推理。
Downloads 25.19k
Release Time : 5/19/2024

Model Overview

该模型属于Phi-3系列,支持多模态输入(文本和图像),适用于英语环境下的商业和研究用途,特别适合内存/计算受限的环境和延迟敏感的场景。

Model Features

多模态支持
支持文本和图像输入,能够理解图像内容并生成相关文本描述。
长上下文支持
支持128K令牌的上下文长度,适合处理长文本和复杂任务。
轻量级设计
模型参数规模适中,适合内存/计算受限的环境和延迟敏感的场景。
高质量训练数据
训练数据涵盖合成数据和经过筛选的公开网站内容,聚焦于高质量、高推理密度的数据。

Model Capabilities

文本生成
图像理解
光学字符识别(OCR)
图表和表格理解

Use Cases

通用图像理解
图像描述生成
根据输入的图像生成详细的文本描述。
生成准确且详细的图像描述,适用于无障碍应用和内容管理。
文档处理
图表理解
解析图表中的信息并生成总结或分析。
能够准确识别图表中的数据和趋势,生成有用的分析报告。
表格理解
从表格中提取信息并生成结构化数据或总结。
高效提取表格数据,适用于数据分析和报告生成。
商业应用
会议准备分析
分析会议准备情况的图表数据,生成总结和建议。
提供深刻的讨论问题和建议,帮助改进会议效率。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase