Perseus-Doc-vl-071225-GGUF开源视觉语言模型 - 支持文本、图像等多领域应用

Perseus Doc Vl 071225 GGUF

由 mradermacher 开发

Perseus-Doc-vl-0712量化模型是一个支持文本生成推理、图像字幕生成、光学字符识别等多领域应用的视觉与语言理解模型，基于transformers库构建。

下载量 227

发布时间 : 7/13/2025

模型简介

该模型是prithivMLmods/Perseus-Doc-vl-0712的静态量化版本，支持多种视觉与语言理解任务，包括文本生成、图像字幕生成和光学字符识别等。

多领域应用

支持文本生成推理、图像字幕生成、光学字符识别等多种任务。

多语言支持

能够处理英语和中文等多种语言。

量化版本

提供多种量化版本，适用于不同硬件和性能需求。

文本生成推理

图像字幕生成

光学字符识别

智能字符识别

视觉理解

图像到文本转换

文档处理

PDF文档分析

对PDF文档进行内容分析和识别。

OCR识别

从图像或扫描文档中提取文本内容。

图像理解

图像字幕生成

为图像生成描述性字幕。

Perseus-Doc-vl-0712量化模型支持文本生成推理、图像字幕生成、光学字符识别等多领域应用，可处理多种语言，基于transformers库构建，为视觉与语言理解任务提供了有力支持。

属性	详情
基础模型	prithivMLmods/Perseus-Doc-vl-0712
数据集	prithivMLmods/OpenDoc-Pdf-Preview、prithivMLmods/Corvus-OCR-Caption-Mix、prithivMLmods/Openpdf-Analysis-Recognition、prithivMLmods/Opendoc2-Analysis-Recognition
支持语言	英语、中文
库名称	transformers
许可证	apache-2.0
量化者	mradermacher
标签	text-generation-inference、image-captioning、optical-character-recognition、intelligent-character-recognition、caption、ocr、visual-understanding、art、icr、image-to-text、vlm、Doc-v

此模型是https://huggingface.co/prithivMLmods/Perseus-Doc-vl-0712 的静态量化版本。加权/矩阵量化版本可在https://huggingface.co/mradermacher/Perseus-Doc-vl-071225-i1-GGUF 获取。

如需便捷概览和下载列表，请访问我们的此模型页面。

如果您不确定如何使用GGUF文件，请参考TheBloke的README获取更多详细信息，包括如何拼接多部分文件。

（按大小排序，不一定代表质量。IQ量化通常优于类似大小的非IQ量化）

链接	类型	大小/GB	说明
GGUF	mmproj-Q8_0	1.0	多模态补充
GGUF	mmproj-f16	1.5	多模态补充
GGUF	Q2_K	3.1
GGUF	Q3_K_S	3.6
GGUF	Q3_K_M	3.9	质量较低
GGUF	Q3_K_L	4.2
GGUF	IQ4_XS	4.4
GGUF	Q4_K_S	4.6	快速，推荐
GGUF	Q4_K_M	4.8	快速，推荐
GGUF	Q5_K_S	5.4
GGUF	Q5_K_M	5.5
GGUF	Q6_K	6.4	质量非常好
GGUF	Q8_0	8.2	快速，质量最佳
GGUF	f16	15.3	16 bpw，过度配置