R

Ruri V3 310m

由 cl-nagoya 开发
Ruri v3是基于ModernBERT-Ja构建的通用日语文本嵌入模型,在日语文本嵌入任务中实现业界领先性能,支持长达8192个标记的序列。
下载量 3,395
发布时间 : 4/9/2025

模型简介

Ruri v3是一个高性能的日语文本嵌入模型,专为处理日语文本而设计,适用于语义编码、分类/聚类/主题编码、检索任务等多种场景。

模型特点

长序列支持
支持长达8192个标记的序列,相比前代版本(512个标记)有显著提升
扩展词汇表
词汇表扩展至10万标记(前代为3.2万),可缩短输入序列,提升效率
FlashAttention技术
集成FlashAttention技术,实现更快的推理和微调
纯SentencePiece分词器
仅需SentencePiece即可完成分词,无需外部词语分割工具

模型能力

日语文本嵌入
句子相似度计算
语义编码
主题编码
检索任务处理

使用案例

信息检索
文档检索
使用'検索クエリ:'和'検索文書:'前缀进行检索任务处理
在JMTEB评估中检索任务得分81.89
文本分类
主题分类
使用'トピック:'前缀进行分类/聚类/主题编码
在JMTEB评估中分类任务得分78.66
语义分析
句子相似度计算
使用空字符串前缀进行语义编码
在JMTEB评估中STS任务得分81.22
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase