Florence-2-VLM-Doc-VQA开源视觉问答模型 - 免费解读图像并回答相关问题

Home

Florence 2 VLM Doc VQA

Developed by prithivMLmods

基于microsoft/Florence-2-base-ft微调的视觉问答(VQA)专用版本，能够解读图像内容并回答相关问题

文本生成图像

Transformers

English#视觉问答优化 #图像内容解析 #英文视觉交互

Downloads 69

Release Time : 10/26/2024

Model Overview

该模型经过优化，专门用于视觉问答任务，能够理解图像内容并生成与视觉信息相关的自然语言回答

Model Features

视觉问答能力

能够理解图像内容并回答相关问题

基于Florence-2优化

在基础模型上针对视觉问答任务进行了专门微调

英文支持

专注于英文视觉问答任务

Model Capabilities

图像内容理解

视觉问答

图像转文本

Use Cases

教育

教育辅助工具

帮助学生理解教材中的图像内容

提供准确的图像相关问答

无障碍服务

视觉辅助

为视障人士描述图像内容

生成准确的图像描述和回答相关问题

属性	详情
微调者	prithivMLmods
模型类型	视觉问答（VQA）
语言	英语（自然语言处理组件）
许可证	未指定
微调基础模型	microsoft/Florence-2-base-ft

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Florence 2 VLM Doc VQA

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 视觉问答模型

📚 详细文档

模型详情

使用方法