PVD-160k-Mistral-7b開源矢量圖形推理模型 - 借文本描述提升圖形理解能力

首頁

PVD 160k Mistral 7b

由mikewang開發

基於文本的矢量圖形推理模型，通過中間文本視覺描述提升對矢量圖形的理解能力

圖像生成文本

Transformers

開源協議:Apache-2.0 #矢量圖形推理 #文本視覺描述 #SVG解析

下載量 15

發布時間 : 3/28/2024

模型概述

視覺描述語言模型（VDLM）是一個基於中間文本視覺描述的視覺推理框架，專注於解決大型多模態模型在矢量圖形理解上的不足。它通過SVG表示和習得的原始視覺描述，顯著提升了在矢量圖形問答任務中的表現。

模型特點

矢量圖形理解

專門針對矢量圖形設計的視覺推理能力，能夠準確識別空間關係和基本圖形元素

中間文本表示

使用SVG表示和習得的原始視覺描述作為中間表示，增強模型對視覺細節的感知

多模態集成

可直接集成到現有LLMs和LMMs中，無需額外訓練即可提升視覺推理能力

模型能力

矢量圖形分析

空間關係識別

基本迷宮問題解決

SVG圖像理解

視覺問答

使用案例

教育

幾何圖形理解

幫助學生理解複雜幾何圖形的空間關係和屬性

提升幾何學習效率

設計

矢量圖形分析

自動分析設計稿中的元素佈局和關係

提高設計審查效率

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

PVD 160k Mistral 7b

模型概述

模型特點

模型能力

使用案例

🚀 基於文本的矢量圖形推理

🚀 快速開始

📄 許可證

相關鏈接