P

Phi 3.5 Vision Instruct

Developed by FriendliAI
Phi-3.5-vision是一款轻量级、先进的开源多模态模型,支持128K上下文长度,专注于高质量、富含推理的文本和视觉数据处理。
Downloads 370
Release Time : 3/4/2025

Model Overview

基于Phi-3模型家族的多模态版本,经过严格增强过程,结合监督微调与直接偏好优化,确保精确遵循指令和强大的安全措施。

Model Features

多模态支持
同时处理文本和图像输入,支持多帧图像理解和推理
长上下文处理
支持128K token的上下文长度,适合处理长文档和多图像输入
轻量高效
针对内存/计算受限环境和低延迟场景优化
安全对齐
经过严格的安全后训练,减少有害内容生成风险

Model Capabilities

通用图像理解
光学字符识别
图表和表格理解
多图像比较
多图像或视频剪辑摘要
文本生成
视觉推理

Use Cases

办公自动化
幻灯片摘要
自动分析并总结演示文稿内容
能够准确提取关键信息并生成简洁摘要
文档理解
解析PDF、PPT等文档中的文字和图表
在TextVQA基准测试中达到72.0分
教育
科学问题解答
回答基于图像的科学问题
在ScienceQA测试集上达到91.3%准确率
数学推理
解决视觉数学问题
在MathVista测试集上达到43.9分
内容分析
视频摘要
生成短视频内容的摘要
在Video-MME基准测试中短视频处理得分60.8
图像比较
分析多张图像的相似与差异
在多视图推理任务中得分54.1
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase