rubert-tiny2开源俄语编码器 - 免费使用生成高质量句子嵌入向量

首页

Rubert Tiny2

由 cointegrated 开发

基于BERT的小型俄语编码器，能生成高质量的句子嵌入向量

文本嵌入

Transformers

其他开源协议:MIT #俄语句子嵌入 #短文本分类 #高效BERT

下载量 585.48k

发布时间 : 3/2/2022

模型简介

这是rubert-tiny的升级版本，专注于俄语处理，可用于生成句子嵌入向量或针对下游任务进行微调。

模型特点

扩展词汇表

词汇表从29564个词元扩展到83828个，提高了模型的表现力

长序列支持

支持的最大序列长度从512扩展到2048

高质量句子嵌入

句子嵌入向量更接近LaBSE的表现

优化片段嵌入

在NLI任务上进行了调优，具有实际意义的片段嵌入

专注俄语处理

该模型专门针对俄语优化

模型能力

生成句子嵌入向量

短文本分类

句子相似度计算

填充掩码

使用案例

文本处理

短文本分类

使用KNN等方法对短文本进行分类

语义搜索

基于句子嵌入向量进行语义相似性搜索

🚀 俄罗斯语句子相似度模型rubert-tiny2

这是一个基于俄罗斯语的小型BERT编码器，能生成高质量的句子嵌入向量。可用于句子相似度任务，如短文本的KNN分类等。

🚀 快速开始

这是 cointegrated/rubert-tiny 的更新版本。这篇俄语文章提供了更多详细信息。

与之前版本的不同之处包括：

更大的词汇表：从29564个标记增加到83828个；
支持更长的序列：从512增加到2048；
句子嵌入向量比以前更接近LaBSE；
有意义的片段嵌入（在NLI任务上进行了调优）
该模型仅专注于俄语。

该模型可以直接用于生成句子嵌入向量（例如用于短文本的KNN分类），也可以针对下游任务进行微调。

✨ 主要特性

词汇表更大：拥有83828个标记，相比旧版本的29564个有显著提升。
支持长序列：能够处理长度为2048的序列，而不是之前的512。
嵌入更优：句子嵌入向量更接近LaBSE，且有意义的片段嵌入经过NLI任务调优。
语言专注：仅针对俄语进行优化。

📦 安装指南

在使用模型前，需要安装必要的库：

pip install transformers sentencepiece

💻 使用示例

基础用法

可以按照以下方式生成句子嵌入向量：

# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
# model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (312,)

高级用法

也可以结合 sentence_transformers 库使用该模型：

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('cointegrated/rubert-tiny2')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(embeddings)