ruri-v3-310m开源日语文本嵌入模型 - 长序列支持实现业界领先性能

首页

Ruri V3 310m

由 cl-nagoya 开发

Ruri v3是基于ModernBERT-Ja构建的通用日语文本嵌入模型，在日语文本嵌入任务中实现业界领先性能，支持长达8192个标记的序列。

文本嵌入

Safetensors

日语开源协议:Apache-2.0 #日语文本嵌入 #长序列支持 #高精度检索

下载量 3,395

发布时间 : 4/9/2025

模型简介

Ruri v3是一个高性能的日语文本嵌入模型，专为处理日语文本而设计，适用于语义编码、分类/聚类/主题编码、检索任务等多种场景。

模型特点

长序列支持

支持长达8192个标记的序列，相比前代版本（512个标记）有显著提升

扩展词汇表

词汇表扩展至10万标记（前代为3.2万），可缩短输入序列，提升效率

FlashAttention技术

集成FlashAttention技术，实现更快的推理和微调

纯SentencePiece分词器

仅需SentencePiece即可完成分词，无需外部词语分割工具

模型能力

日语文本嵌入

句子相似度计算

语义编码

主题编码

检索任务处理

使用案例

信息检索

文档检索

使用'検索クエリ:'和'検索文書:'前缀进行检索任务处理

在JMTEB评估中检索任务得分81.89

文本分类

主题分类

使用'トピック:'前缀进行分类/聚类/主题编码

在JMTEB评估中分类任务得分78.66

语义分析

句子相似度计算

使用空字符串前缀进行语义编码

在JMTEB评估中STS任务得分81.22

🚀 Ruri：日语通用文本嵌入模型

Ruri v3 是一个基于 ModernBERT-Ja 构建的通用日语文本嵌入模型。它为日语文本嵌入任务提供了先进的技术解决方案，具有以下显著优势：

卓越性能：在日语文本嵌入任务中表现出色。
长序列支持：支持长达 8192 个标记的序列长度，而之前的 Ruri 版本（v1、v2）仅支持 512 个标记。
丰富词汇：拥有 100K 标记的扩展词汇表，相比 v1 和 v2 的 32K 有显著提升，使输入序列更短，提高了效率。
快速推理：集成了 FlashAttention，遵循 ModernBERT 架构，实现了更快的推理和微调。
高效分词：仅基于 SentencePiece 的分词器，无需外部分词工具，与之前依赖特定日语 BERT 分词器的版本不同。

🚀 快速开始

你可以使用 transformers 库（版本 4.48.0 或更高）直接使用我们的模型。

pip install -U "transformers>=4.48.0" sentence-transformers

此外，如果你的 GPU 支持 Flash Attention 2，我们建议使用它来加速模型推理和微调。

pip install flash-attn --no-build-isolation

然后，你可以加载模型并进行推理。

import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-310m", device=device)

# Ruri v3 采用 1+3 前缀方案来区分不同类型的文本输入：
# ""（空字符串）用于编码语义含义。
# "トピック: " 用于分类、聚类和编码主题信息。
# "検索クエリ: " 用于检索任务中的查询。
# "検索文書: " 用于待检索的文档。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 768]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9603, 0.8157, 0.7074, 0.6916],
#  [0.9603, 1.0000, 0.8192, 0.7014, 0.6819],
#  [0.8157, 0.8192, 1.0000, 0.8701, 0.8470],
#  [0.7074, 0.7014, 0.8701, 1.0000, 0.9746],
#  [0.6916, 0.6819, 0.8470, 0.9746, 1.0000]]

✨ 主要特性

最先进的性能：在日语文本嵌入任务中表现卓越。
长序列支持：支持长达 8192 个标记的序列长度。
扩展词汇表：拥有 100K 标记的词汇表，提高了效率。
集成 FlashAttention：实现更快的推理和微调。
仅使用 SentencePiece 分词器：无需外部分词工具。

📦 安装指南

安装依赖库

pip install -U "transformers>=4.48.0" sentence-transformers

安装 Flash Attention 2（可选）

pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-310m", device=device)

# Ruri v3 采用 1+3 前缀方案来区分不同类型的文本输入：
# ""（空字符串）用于编码语义含义。
# "トピック: " 用于分类、聚类和编码主题信息。
# "検索クエリ: " 用于检索任务中的查询。
# "検索文書: " 用于待检索的文档。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 768]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9603, 0.8157, 0.7074, 0.6916],
#  [0.9603, 1.0000, 0.8192, 0.7014, 0.6819],
#  [0.8157, 0.8192, 1.0000, 0.8701, 0.8470],
#  [0.7074, 0.7014, 0.8701, 1.0000, 0.9746],
#  [0.6916, 0.6819, 0.8470, 0.9746, 1.0000]]

📚 详细文档

模型系列

我们提供了不同大小的 Ruri-v3 模型。以下是每个模型的摘要：

ID	参数数量	不含嵌入层的参数数量	维度	层数	平均 JMTEB 得分
cl-nagoya/ruri-v3-30m	37M	10M	256	10	74.51
cl-nagoya/ruri-v3-70m	70M	31M	384	13	75.48
cl-nagoya/ruri-v3-130m	132M	80M	512	19	76.55
cl-nagoya/ruri-v3-310m	315M	236M	768	25	77.24

基准测试

JMTEB

使用 JMTEB 进行评估。

模型	参数数量	平均得分	检索	STS	分类	重排序	聚类	成对分类
Ruri-v3-30m	37M	74.51	78.08	82.48	74.80	93.00	52.12	62.40
Ruri-v3-70m	70M	75.48	79.96	79.82	76.97	93.27	52.70	61.75
Ruri-v3-130m	132M	76.55	81.89	79.25	77.16	93.31	55.36	62.26
Ruri-v3-310m (本模型)	315M	77.24	81.89	81.22	78.66	93.43	55.69	62.60
sbintuitions/sarashina-embedding-v1-1b	1.22B	75.50	77.61	82.71	78.37	93.74	53.86	62.00
PLaMo-Embedding-1B	1.05B	76.10	79.94	83.14	77.20	93.57	53.47	62.37
OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35
pkshatech/GLuCoSE-base-ja	133M	70.44	59.02	78.71	76.82	91.90	49.78	66.39
pkshatech/GLuCoSE-base-ja-v2	133M	72.23	73.36	82.96	74.21	93.01	48.65	62.37
retrieva-jp/amber-base	130M	72.12	73.40	77.81	76.14	93.27	48.05	64.03
retrieva-jp/amber-large	315M	73.22	75.40	79.32	77.14	93.54	48.73	60.97
sentence-transformers/LaBSE	472M	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	118M	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	278M	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	560M	71.65	70.98	79.70	72.89	92.96	51.24	62.15
Ruri-Small	68M	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Small v2	68M	73.30	73.94	82.91	76.17	93.20	51.58	62.32
Ruri-Base	111M	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Base v2	111M	72.48	72.33	83.03	75.34	93.17	51.38	62.35
Ruri-Large	337M	73.31	73.02	83.13	77.43	92.99	51.82	62.29
Ruri-Large v2	337M	74.55	76.34	83.17	77.18	93.21	52.14	62.27

模型详情

模型描述

属性	详情
模型类型	句子转换器
基础模型	cl-nagoya/ruri-v3-pt-310m
最大序列长度	8192 个标记
输出维度	768
相似度函数	余弦相似度
语言	日语
许可证	Apache 2.0
论文	https://arxiv.org/abs/2409.07737

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

🔧 技术细节

Ruri v3 基于 ModernBERT-Ja 构建，具有以下技术优势：

长序列支持：支持长达 8192 个标记的序列长度，相比之前的版本有显著提升。
扩展词汇表：拥有 100K 标记的词汇表，使输入序列更短，提高了效率。
集成 FlashAttention：遵循 ModernBERT 的架构，实现了更快的推理和微调。
仅使用 SentencePiece 分词器：无需外部分词工具，简化了输入处理流程。

📄 许可证

本模型根据 Apache 许可证 2.0 版发布。

引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}