ruri-large-v2開源日語文本模型 - 免費實現句子相似度計算與長文特徵提取

首頁

Ruri Large V2

由cl-nagoya開發

Ruri是一個日語通用文本嵌入模型，專注於句子相似度計算和特徵提取，支持長文本處理。

文本嵌入

Safetensors

日語開源協議:Apache-2.0 #日語文本嵌入 #長文本支持 #高精度相似度

下載量 3,672

發布時間 : 12/6/2024

模型概述

該模型主要用於日語句子相似度計算和文本特徵提取，能夠生成高質量的文本嵌入表示，適用於信息檢索、聚類分析等任務。

模型特點

長文本支持

最大支持512個標記的序列長度，適合處理較長文本

高性能

在JMTEB基準測試中表現優異，平均得分74.55

前綴感知

能夠區分查詢文本和段落文本，通過特定前綴優化相似度計算

模型能力

日語句子相似度計算

文本特徵提取

信息檢索

文本聚類

語義搜索

使用案例

信息檢索

問答系統

用於查找與用戶查詢最相關的答案段落

在重排序任務中達到93.21的高分

文本分析

文檔聚類

將語義相似的文檔自動分組

在聚類任務中得分52.14

🚀 Ruri：日語通用文本嵌入模型

Ruri 是一款用於日語文本的嵌入模型，能夠提取文本特徵並計算句子相似度，在相關任務中表現出色。目前 v3 版本模型已發佈，性能更優。

🚀 快速開始

安裝依賴庫

首先需要安裝 Sentence Transformers 庫及其相關依賴：

pip install -U sentence-transformers fugashi sentencepiece unidic-lite

加載模型並進行推理

安裝完成後，你可以加載模型並進行推理：

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載模型
model = SentenceTransformer("cl-nagoya/ruri-large-v2")

# 別忘了在查詢文本前添加前綴 "クエリ: "，在段落文本前添加前綴 "文章: "
sentences = [
    "クエリ: 瑠璃色はどんな色？",
    "文章: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    "クエリ: ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
    "文章: ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [4, 1024]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9525, 0.6462, 0.6736],
#  [0.9525, 1.0000, 0.6442, 0.6690],
#  [0.6462, 0.6442, 1.0000, 0.9046],
#  [0.6736, 0.6690, 0.9046, 1.0000]]

✨ 主要特性

多版本可選：提供了不同參數規模的 v3 版本模型，如 cl-nagoya/ruri-v3-30m、cl-nagoya/ruri-v3-70m 等，可根據需求選擇。
性能優異：在 JMTEB 基準測試中，Ruri-Large v2 模型取得了 74.55 的平均成績，在多個指標上表現出色。

📦 安裝指南

安裝 Sentence Transformers 庫及其相關依賴：

pip install -U sentence-transformers fugashi sentencepiece unidic-lite

💻 使用示例

基礎用法

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載模型
model = SentenceTransformer("cl-nagoya/ruri-large-v2")

# 別忘了在查詢文本前添加前綴 "クエリ: "，在段落文本前添加前綴 "文章: "
sentences = [
    "クエリ: 瑠璃色はどんな色？",
    "文章: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    "クエリ: ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
    "文章: ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [4, 1024]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9525, 0.6462, 0.6736],
#  [0.9525, 1.0000, 0.6442, 0.6690],
#  [0.6462, 0.6442, 1.0000, 0.9046],
#  [0.6736, 0.6690, 0.9046, 1.0000]]

📚 詳細文檔

JMTEB 基準測試

使用 JMTEB 進行評估，以下是部分模型的測試結果：

模型	參數數量	平均成績	檢索	STS	分類	重排序	聚類	成對分類
cl-nagoya/sup-simcse-ja-base	111M	68.56	49.64	82.05	73.47	91.83	51.79	62.57
cl-nagoya/sup-simcse-ja-large	337M	66.51	37.62	83.18	73.73	91.48	50.56	62.51
cl-nagoya/unsup-simcse-ja-base	111M	65.07	40.23	78.72	73.07	91.16	44.77	62.44
cl-nagoya/unsup-simcse-ja-large	337M	66.27	40.53	80.56	74.66	90.95	48.41	62.49
pkshatech/GLuCoSE-base-ja	133M	70.44	59.02	78.71	76.82	91.90	49.78	66.39
sentence-transformers/LaBSE	472M	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	118M	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	278M	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	560M	71.65	70.98	79.70	72.89	92.96	51.24	62.15
OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35
Ruri-Small	68M	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Small v2	68M	73.30	73.94	82.91	76.17	93.20	51.58	62.32
Ruri-Base	111M	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Base v2	111M	72.48	72.33	83.03	75.34	93.17	51.38	62.35
Ruri-Large	337M	73.31	73.02	83.13	77.43	92.99	51.82	62.29
Ruri-Large v2 (本模型)	337M	74.55	76.34	83.17	77.18	93.21	52.14	62.27

🔧 技術細節

模型描述

屬性	詳情
模型類型	句子轉換器
基礎模型	cl-nagoya/ruri-pt-large-v2
最大序列長度	512 個詞元
輸出維度	1024
相似度函數	餘弦相似度
語言	日語
許可證	Apache 2.0
論文	https://arxiv.org/abs/2409.07737

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

框架版本

Python: 3.10.13
Sentence Transformers: 3.0.0
Transformers: 4.41.2
PyTorch: 2.3.1+cu118
Accelerate: 0.30.1
Datasets: 2.19.1
Tokenizers: 0.19.1

📄 許可證

本模型根據 Apache 許可證 2.0 版發佈。

引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}