ruri-v3-70m（瑠璃v3）開源日語文本嵌入模型 - 長序列支持與先進性能體驗

首頁

Ruri V3 70m

由cl-nagoya開發

瑠璃v3是基於ModernBERT-Ja構建的日語通用文本嵌入模型，支持長達8192個標記的序列，在日語文本嵌入任務中達到最先進的性能。

文本嵌入

Safetensors

日語開源協議:Apache-2.0 #日語文本嵌入 #長文本支持 #高精度檢索

下載量 865

發布時間 : 4/9/2025

模型概述

瑠璃v3是一個高性能的日語文本嵌入模型，專為處理日語文本相似度、檢索、分類等任務而設計。它採用純SentencePiece分詞器，支持長序列處理，並集成了FlashAttention技術以提高效率。

模型特點

長序列支持

支持長達8192個標記的序列處理，遠超前代512標記的限制

擴展詞彙表

詞彙表擴展至10萬標記（前代為3.2萬），提高處理效率

FlashAttention集成

繼承ModernBERT架構的FlashAttention技術，實現更快的推理和微調

純SentencePiece分詞

無需外部分詞工具，簡化預處理流程

多任務前綴方案

採用1+3前綴方案區分不同文本輸入類型（語義、主題、查詢、文檔）

模型能力

日語文本嵌入

句子相似度計算

文本檢索

文本分類

聚類分析

重排序任務

使用案例

信息檢索

文檔檢索

使用'検索クエリ'和'検索文書'前綴構建高效的檢索系統

在JMTEB檢索任務中達到79.96分

文本分析

主題分類

使用'トピック'前綴進行文本主題編碼和分類

在JMTEB分類任務中達到76.97分

語義分析

句子相似度計算

計算兩個日語句子之間的語義相似度

在JMTEB STS任務中達到79.82分

🚀 Ruri：日語通用文本嵌入模型

Ruri v3 是一個基於 ModernBERT-Ja 構建的通用日語文本嵌入模型。它在日語文本嵌入任務中具有顯著的技術優勢，能夠高效處理長文本，為自然語言處理領域提供了強大的支持。

✨ 主要特性

卓越性能：在日語文本嵌入任務中表現出色，達到了當前的先進水平。
長序列支持：支持最長達 8192 個標記的序列長度，相比之前版本（v1、v2）的 512 個標記有了顯著提升。
擴展詞彙表：詞彙表擴展到 100K 個標記，而 v1 和 v2 僅為 32K。更大的詞彙表使輸入序列更短，提高了效率。
集成 FlashAttention：採用 ModernBERT 架構，集成了 FlashAttention，實現了更快的推理和微調。
單一分詞器：僅使用 SentencePiece 作為分詞器，無需外部分詞工具，與之前依賴特定日語 BERT 分詞器且需要預分詞輸入的版本不同。

📦 安裝指南

你可以使用 transformers 庫 v4.48.0 或更高版本直接使用我們的模型：

pip install -U "transformers>=4.48.0" sentence-transformers

此外，如果你的 GPU 支持 Flash Attention 2，我們建議使用 Flash Attention 2 運行模型：

pip install flash-attn --no-build-isolation

💻 使用示例

基礎用法

import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-70m", device=device)

# Ruri v3 採用 1+3 前綴方案來區分不同類型的文本輸入：
# ""（空字符串）用於編碼語義信息。
# "トピック: " 用於分類、聚類和編碼主題信息。
# "検索クエリ: " 用於檢索任務中的查詢。
# "検索文書: " 用於待檢索的文檔。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 384]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9555, 0.8430, 0.6772, 0.7077],
#  [0.9555, 1.0000, 0.8333, 0.6636, 0.6971],
#  [0.8430, 0.8333, 1.0000, 0.8554, 0.8639],
#  [0.6772, 0.6636, 0.8554, 1.0000, 0.9500],
#  [0.7077, 0.6971, 0.8639, 0.9500, 1.0000]]

📚 詳細文檔

模型系列

我們提供了多種尺寸的 Ruri-v3 模型，以下是每個模型的概要：

ID	參數數量	不含嵌入層的參數數量	維度	層數	平均 JMTEB 得分
cl-nagoya/ruri-v3-30m	37M	10M	256	10	74.51
cl-nagoya/ruri-v3-70m	70M	31M	384	13	75.48
cl-nagoya/ruri-v3-130m	132M	80M	512	19	76.55
cl-nagoya/ruri-v3-310m	315M	236M	768	25	77.24

基準測試

JMTEB

使用 JMTEB 進行評估：

模型	參數數量	平均得分	檢索	STS	分類	重排序	聚類	成對分類
Ruri-v3-30m	37M	74.51	78.08	82.48	74.80	93.00	52.12	62.40
Ruri-v3-70m (本模型)	70M	75.48	79.96	79.82	76.97	93.27	52.70	61.75
Ruri-v3-130m	132M	76.55	81.89	79.25	77.16	93.31	55.36	62.26
Ruri-v3-310m	315M	77.24	81.89	81.22	78.66	93.43	55.69	62.60
sbintuitions/sarashina-embedding-v1-1b	1.22B	75.50	77.61	82.71	78.37	93.74	53.86	62.00
PLaMo-Embedding-1B	1.05B	76.10	79.94	83.14	77.20	93.57	53.47	62.37
OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35
pkshatech/GLuCoSE-base-ja	133M	70.44	59.02	78.71	76.82	91.90	49.78	66.39
pkshatech/GLuCoSE-base-ja-v2	133M	72.23	73.36	82.96	74.21	93.01	48.65	62.37
retrieva-jp/amber-base	130M	72.12	73.40	77.81	76.14	93.27	48.05	64.03
retrieva-jp/amber-large	315M	73.22	75.40	79.32	77.14	93.54	48.73	60.97
sentence-transformers/LaBSE	472M	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	118M	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	278M	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	560M	71.65	70.98	79.70	72.89	92.96	51.24	62.15
Ruri-Small	68M	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Small v2	68M	73.30	73.94	82.91	76.17	93.20	51.58	62.32
Ruri-Base	111M	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Base v2	111M	72.48	72.33	83.03	75.34	93.17	51.38	62.35
Ruri-Large	337M	73.31	73.02	83.13	77.43	92.99	51.82	62.29
Ruri-Large v2	337M	74.55	76.34	83.17	77.18	93.21	52.14	62.27

模型詳情

模型描述

屬性	詳情
模型類型	句子轉換器
基礎模型	cl-nagoya/ruri-v3-pt-70m
最大序列長度	8192 個標記
輸出維度	384
相似度函數	餘弦相似度
語言	日語
許可證	Apache 2.0
論文	https://arxiv.org/abs/2409.07737

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

🔧 技術細節

Ruri v3 在日語文本嵌入任務中展現了卓越的性能，主要得益於其先進的架構和技術創新。它基於 ModernBERT-Ja 構建，集成了 FlashAttention 技術，實現了更快的推理和微調。同時，擴展的詞彙表和對長序列的支持，使得模型在處理複雜的日語文本時更加高效和準確。

📄 許可證

本模型根據 Apache 許可證 2.0 版發佈。

引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}