Florence 2 VLM Doc VQA

F

Florence 2 VLM Doc VQA

由prithivMLmods開發

基於microsoft/Florence-2-base-ft微調的視覺問答(VQA)專用版本，能夠解讀圖像內容並回答相關問題

文本生成圖像

英語#視覺問答優化 #圖像內容解析 #英文視覺交互

下載量 69

發布時間 : 10/26/2024

模型概述

該模型經過優化，專門用於視覺問答任務，能夠理解圖像內容並生成與視覺信息相關的自然語言回答

模型特點

視覺問答能力

能夠理解圖像內容並回答相關問題

基於Florence-2優化

在基礎模型上針對視覺問答任務進行了專門微調

英文支持

專注於英文視覺問答任務

模型能力

圖像內容理解

視覺問答

圖像轉文本

使用案例

教育

教育輔助工具

幫助學生理解教材中的圖像內容

提供準確的圖像相關問答

無障礙服務

視覺輔助

為視障人士描述圖像內容

生成準確的圖像描述和回答相關問題

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase