ruri-v3-pt-30m開源日語文本嵌入模型 - 支持多參數版本處理多樣文本任務

首頁

Ruri V3 Pt 30m

由cl-nagoya開發

Ruri是基於ModernBERT-Ja構建的日語通用文本嵌入模型，提供不同參數規模的版本，適用於多種文本處理任務。

文本嵌入

Safetensors

日語開源協議:Apache-2.0 #日語文本嵌入 #多前綴編碼 #輕量級BERT

下載量 250

發布時間 : 3/20/2025

模型概述

Ruri是一個日語通用文本嵌入模型，主要用於句子相似度計算和特徵提取。它基於ModernBERT-Ja架構，支持多種文本類型的前綴區分。

模型特點

多參數規模版本

提供從30M到310M不同參數規模的模型版本，滿足不同計算資源需求

1+3前綴方案

採用特殊前綴區分文本類型：空字符串用於語義編碼，'トピック:'用於分類/聚類，'検索クエリ:'用於檢索查詢，'検索文書:'用於待檢索文檔

高性能表現

在JMTEB基準測試中取得74.51到77.24的平均分（不同規模版本）

模型能力

句子相似度計算

文本特徵提取

語義編碼

分類/聚類編碼

檢索查詢編碼

文檔檢索編碼

使用案例

信息檢索

文檔檢索

使用'検索クエリ:'和'検索文書:'前綴編碼查詢和文檔，實現高效檢索

文本分析

主題分類

使用'トピック:'前綴對文本進行主題編碼

語義相似度計算

比較不同文本的嵌入向量計算語義相似度

🚀 瑠璃（Ruri）：日語通用文本嵌入模型

瑠璃（Ruri） 是基於 ModernBERT-Ja 構建的通用日語文本嵌入模型，可用於句子相似度計算和特徵提取等任務。

⚠️ 重要提示

此模型為預訓練版本，尚未進行微調。如需微調版本，請使用 cl-nagoya/ruri-v3-30m！

✨ 主要特性

多模型尺寸：提供多種不同大小的模型，以滿足不同場景的需求。
廣泛應用：適用於句子相似度計算、特徵提取等自然語言處理任務。

📦 安裝指南

你可以使用 transformers 庫 v4.48.0 或更高版本直接使用我們的模型：

pip install -U "transformers>=4.48.0" sentence-transformers

此外，如果你的 GPU 支持 Flash Attention 2，我們建議使用 Flash Attention 2 運行模型：

pip install flash-attn --no-build-isolation

💻 使用示例

基礎用法

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載模型
model = SentenceTransformer("cl-nagoya/ruri-v3-pt-30m")

# Ruri v3 採用 1+3 前綴方案來區分不同類型的文本輸入：
# ""（空字符串）用於編碼語義信息。
# "トピック: " 用於分類、聚類和編碼主題信息。
# "検索クエリ: " 用於檢索任務中的查詢。
# "検索文書: " 用於待檢索的文檔。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 256]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)

📚 詳細文檔

微調模型系列

Ruri v3 是基於 ModernBERT-Ja 構建的通用日語文本嵌入模型。我們提供了不同大小的 Ruri-v3 模型，以下是各模型的概要：

模型 ID	參數數量	不含嵌入層的參數數量	維度	層數	平均 JMTEB 得分
cl-nagoya/ruri-v3-30m	37M	10M	256	10	74.51
cl-nagoya/ruri-v3-70m	70M	31M	384	13	75.48
cl-nagoya/ruri-v3-130m	132M	80M	512	19	76.55
cl-nagoya/ruri-v3-310m	315M	236M	768	25	77.24

📄 許可證

此模型根據 Apache 許可證 2.0 版發佈。

📖 引用

如果你使用了該模型，請引用以下 BibTeX：

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}