C

Colnomic Embed Multimodal 3b

Developed by nomic-ai
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
Downloads 4,636
Release Time : 3/27/2025

Model Overview

该模型在视觉文档检索任务中表现卓越,能够直接编码交错排列的文本和图像,无需复杂预处理,适用于多种文档检索场景。

Model Features

高性能视觉文档检索
在Vidore-v2上达到61.2 NDCG@5,仅次于ColNomic Embed多模态7B。
统一文本-图像编码
直接编码交错排列的文本和图像,无需复杂预处理。
多语言支持
支持英语、意大利语、法语、德语和西班牙语等多种语言。
多向量输出
提供多向量输出选项,提升性能表现。

Model Capabilities

文本编码
图像编码
多模态检索
多语言处理

Use Cases

研究论文检索
捕获公式和图表
检索包含特定公式或图表的研究论文。
能够准确识别和检索包含复杂科学内容的文档。
技术文档管理
代码块和流程图检索
在技术文档中查找特定代码块或流程图。
有效识别技术文档中的代码和视觉元素。
财务报告分析
图表和数据检索
能够准确识别财务报告中的关键数据可视化内容。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase