ruRoPEBert-e5-base-2k開源俄語句子編碼器 - 支持長上下文且測試表現佳

首頁

Ruropebert E5 Base 2k

由Tochka-AI開發

基於RoPEBert架構開發的俄語句子編碼器模型，支持2048標記上下文長度，在encodechka基準測試中表現優異。

文本嵌入

Transformers

其他#俄語句子嵌入 #長上下文支持 #RoPE縮放

下載量 2,422

發布時間 : 2/22/2024

模型概述

由Tochka AI開發的俄語句子嵌入模型，採用RoPEBert架構，主要用於俄語文本的特徵提取和句子相似度計算。

模型特點

長上下文支持

支持最長2048個標記的上下文處理，並可擴展至更長上下文

高效注意力機制

支持SDPA高效注意力實現，提升處理速度

RoPE縮放

支持linear和dynamic兩種RoPE縮放類型，可擴展模型上下文窗口

內置池化器

內置mean和first_token_transform兩種池化器實現，可直接獲取句子嵌入

模型能力

俄語文本特徵提取

句子相似度計算

文本分類

長文本處理

使用案例

文本相似度

句子相似度計算

計算俄語句子間的語義相似度

通過餘弦相似度得分衡量句子相似程度

文本分類

俄語文本分類

添加分類頭後可進行文本分類任務

🚀 ruRoPEBert俄語句子模型

這是一個由Tochka AI基於RoPEBert架構開發的編碼器模型，採用了我們在Habr上發表的文章中描述的克隆方法。

模型訓練使用了CulturaX數據集。以hivaze/ru - e5 - base（即intfloat/multilingual - e5 - base的英語和俄語嵌入部分）模型為基礎；根據encodechka基準測試的S+W分數，該模型在創建時在質量上超過了它以及其他所有模型。

模型源代碼可在文件modeling_rope_bert.py中獲取。

該模型在長度最長為2048個標記的上下文上進行訓練，但也可用於更長的上下文。

🚀 快速開始

✨ 主要特性

基於RoPEBert架構，由Tochka AI開發。
使用CulturaX數據集進行訓練。
在質量上超越了其他模型（根據encodechka基準測試的S+W分數）。
可處理最長2048個標記的上下文，也支持更大的上下文。

📦 安裝指南

重要提示：建議使用transformers 4.37.2及更高版本。要正確加載模型，必須啟用從模型倉庫下載代碼：trust_remote_code = True，這將下載modeling_rope_bert.py腳本並將權重加載到正確的架構中。否則，你可以手動下載此腳本並直接使用其中的類來加載模型。

💻 使用示例

基礎用法（無高效注意力機制）

model_name = 'Tochka-AI/ruRoPEBert-e5-base-2k'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, attn_implementation='eager')

啟用SDPA（高效注意力機制）

model = AutoModel.from_pretrained(model_name, trust_remote_code=True, attn_implementation='sdpa')

獲取嵌入向量

正確的池化器（mean）已經內置在模型架構中，它會根據注意力掩碼對嵌入向量進行平均。你也可以選擇池化器類型（first_token_transform），它會對第一個標記執行可學習的線性變換。

要更改內置池化器的實現，請在AutoModel.from_pretrained函數中使用pooler_type參數。

test_batch = tokenizer.batch_encode_plus(["Привет, чем занят?", "Здравствуйте, чем вы занимаетесь?"], return_tensors='pt', padding=True)
with torch.inference_mode():
  pooled_output = model(**test_batch).pooler_output

此外，你可以使用歸一化和矩陣乘法計算批次中文本之間的餘弦相似度：

import torch.nn.functional as F
F.normalize(pooled_output, dim=1) @ F.normalize(pooled_output, dim=1).T

用作分類器

要加載帶有可訓練分類頭的模型（更改num_labels參數）：

model = AutoModelForSequenceClassification.from_pretrained(model_name, trust_remote_code=True, attn_implementation='sdpa', num_labels=4)

使用RoPE縮放

允許的RoPE縮放類型為：linear和dynamic。要擴展模型的上下文窗口，需要更改分詞器的最大長度並添加rope_scaling參數。

如果你想將模型上下文縮放2倍：

tokenizer.model_max_length = 4096
model = AutoModel.from_pretrained(model_name,
                                  trust_remote_code=True,
                                  attn_implementation='sdpa',
                                  rope_scaling={'type': 'dynamic','factor': 2.0}
                                  ) # 2.0表示2倍縮放，4.0表示4倍縮放，依此類推。

⚠️ 重要提示

別忘了指定所需的數據類型和設備，以有效利用資源。

📚 詳細文檔

指標

該模型在encodechka基準測試中的評估結果如下：

模型名稱	STS	PI	NLI	SA	TI	IA	IC	ICX	NE1	NE2	平均S（不含NE）	平均S+W（含NE）
ruRoPEBert - e5 - base - 512	0.793	0.704	0.457	0.803	0.970	0.788	0.802	0.749	0.328	0.396	0.758	0.679
ruRoPEBert - e5 - base - 2k	0.787	0.708	0.460	0.804	0.970	0.792	0.803	0.749	0.402	0.423	0.759	0.689
intfloat/multilingual - e5 - base	0.834	0.704	0.458	0.795	0.964	0.782	0.803	0.740	0.234	0.373	0.76	0.668