D

Dewey En Beta

Developed by infgrad
杜威是一种新型的长上下文嵌入模型,基于ModernBERT架构,支持128k上下文窗口,在长文档检索任务中表现优异。
Downloads 447
Release Time : 3/23/2025

Model Overview

杜威模型专注于提升长文档场景下的检索性能,采用指令式训练方法使嵌入与任务对齐,支持单向量和多向量表示,具有灵活的文本分块机制。

Model Features

超长上下文支持
支持128k tokens的超长上下文处理能力
多向量表示
支持类似Colbert的多向量表示,但向量数量更少(仅为token数的0.5%)
高效编码
受益于ModernBERT架构优势,即使在长文本编码时也能保持高效
灵活分块
支持完全自定义的文本分块策略,可适应不同应用场景

Model Capabilities

长文档检索
语义相似度计算
文本分类
文本聚类

Use Cases

信息检索
长文档检索
在包含超长文档的数据库中进行高效检索
在LongEmbed基准测试中取得0.86分,超越多个商业模型
语义分析
语义相似度计算
计算文本之间的语义相似度
在短文本评估(MTEB-eng-v2)中表现优异,超越多个7B规模模型
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase