rubert-tiny2開源俄語編碼器 - 免費使用生成高質量句子嵌入向量

首頁

Rubert Tiny2

由cointegrated開發

基於BERT的小型俄語編碼器，能生成高質量的句子嵌入向量

文本嵌入

Transformers

其他開源協議:MIT #俄語句子嵌入 #短文本分類 #高效BERT

下載量 585.48k

發布時間 : 3/2/2022

模型概述

這是rubert-tiny的升級版本，專注於俄語處理，可用於生成句子嵌入向量或針對下游任務進行微調。

模型特點

擴展詞彙表

詞彙表從29564個詞元擴展到83828個，提高了模型的表現力

長序列支持

支持的最大序列長度從512擴展到2048

高質量句子嵌入

句子嵌入向量更接近LaBSE的表現

優化片段嵌入

在NLI任務上進行了調優，具有實際意義的片段嵌入

專注俄語處理

該模型專門針對俄語優化

模型能力

生成句子嵌入向量

短文本分類

句子相似度計算

填充掩碼

使用案例

文本處理

短文本分類

使用KNN等方法對短文本進行分類

語義搜索

基於句子嵌入向量進行語義相似性搜索

🚀 俄羅斯語句子相似度模型rubert-tiny2

這是一個基於俄羅斯語的小型BERT編碼器，能生成高質量的句子嵌入向量。可用於句子相似度任務，如短文本的KNN分類等。

🚀 快速開始

這是 cointegrated/rubert-tiny 的更新版本。這篇俄語文章提供了更多詳細信息。

與之前版本的不同之處包括：

更大的詞彙表：從29564個標記增加到83828個；
支持更長的序列：從512增加到2048；
句子嵌入向量比以前更接近LaBSE；
有意義的片段嵌入（在NLI任務上進行了調優）
該模型僅專注於俄語。

該模型可以直接用於生成句子嵌入向量（例如用於短文本的KNN分類），也可以針對下游任務進行微調。

✨ 主要特性

詞彙表更大：擁有83828個標記，相比舊版本的29564個有顯著提升。
支持長序列：能夠處理長度為2048的序列，而不是之前的512。
嵌入更優：句子嵌入向量更接近LaBSE，且有意義的片段嵌入經過NLI任務調優。
語言專注：僅針對俄語進行優化。

📦 安裝指南

在使用模型前，需要安裝必要的庫：

pip install transformers sentencepiece

💻 使用示例

基礎用法

可以按照以下方式生成句子嵌入向量：

# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
# model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (312,)

高級用法

也可以結合 sentence_transformers 庫使用該模型：

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('cointegrated/rubert-tiny2')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(embeddings)