rubert-mini-frida开源模型 - 快速计算俄语和英语句子嵌入向量

首页

Rubert Mini Frida

由 sergeyzh 开发

FRIDA模型的轻量快速修改版，用于计算俄语和英语句子的嵌入向量

文本嵌入

Transformers

支持多种语言开源协议:MIT #俄英双语嵌入 #轻量级蒸馏 #句子相似度

下载量 1,203

发布时间 : 3/2/2025

模型简介

该模型通过将FRIDA（嵌入维度1536，24层）的嵌入蒸馏到rubert-mini-sts（嵌入维度312，7层）中实现，主要用于俄语和英语句子的嵌入计算及相似度比较。

模型特点

轻量高效

通过蒸馏技术大幅减小模型尺寸（从24层减至7层），同时保持较好的性能

多语言支持

同时支持俄语和英语的句子嵌入计算

前缀功能

继承FRIDA的前缀功能，可通过不同前缀优化特定任务表现

均值池化

将FRIDA的CLS池化替换为均值池化，更适合句子相似度任务

模型能力

计算句子嵌入向量

俄语句子相似度比较

英语句子相似度比较

文本分类支持

信息检索支持

使用案例

文本相似度

复述识别

识别两个句子是否为相同意思的不同表达

在测试集上达到0.94的相似度分数

语义搜索

构建语义搜索引擎，匹配查询与文档

在新闻检索任务NDCG@10达到0.721

分类任务

情感分析

对俄语文本进行情感倾向分类

在俄语评论分类任务中准确率0.658

主题分类

对俄语新闻进行主题分类

在新闻标题分类任务中准确率0.880

🚀 rubert-mini-frida - 轻量快速的FRIDA改进版

rubert-mini-frida是一个用于计算俄语和英语句子嵌入的模型。它通过将ai-forever/FRIDA（嵌入维度为1536，层数为24）的嵌入蒸馏到sergeyzh/rubert-mini-sts（嵌入维度为312，层数为7）中得到。FRIDA的主要使用模式CLS pooling被替换为mean pooling，未对模型行为进行其他更改（如嵌入的修改或过滤、使用额外模型）。蒸馏在最大程度上进行，涵盖俄语和英语句子的嵌入以及前缀的处理。

模型推荐的上下文大小与FRIDA一致，不超过512个词元（实际继承自原始模型的为2048）。

✨ 主要特性

前缀继承

所有前缀均继承自FRIDA。对于大多数任务而言，最优（能保证平均效果）的前缀 "categorize: " 已默认写入 config_sentence_transformers.json。

在 encodechka 中使用的前缀及其对模型评估的影响如下：

前缀	STS	PI	NLI	SA	TI
-	0.839	0.762	0.475	0.801	0.972
search_query:	0.846	0.761	0.498	0.800	0.973
search_document:	0.830	0.748	0.468	0.794	0.972
paraphrase:	0.835	0.764	0.475	0.799	0.973
categorize:	0.850	0.761	0.516	0.802	0.973
categorize_sentiment:	0.755	0.656	0.427	0.798	0.959
categorize_topic:	0.734	0.523	0.389	0.728	0.959
categorize_entailment:	0.837	0.753	0.544	0.802	0.970

任务说明：

语义文本相似度（STS）
释义识别（PI）
自然语言推理（NLI）
情感分析（SA）
毒性识别（TI）

模型指标

模型在 ruMTEB 基准测试中的评估结果如下：

模型名称	指标	Frida	rubert-mini-frida	multilingual-e5-large-instruct	multilingual-e5-large
CEDRClassification	准确率	0.646	0.552	0.500	0.448
GeoreviewClassification	准确率	0.577	0.464	0.559	0.497
GeoreviewClusteringP2P	V-measure	0.783	0.698	0.743	0.605
HeadlineClassification	准确率	0.890	0.880	0.862	0.758
InappropriatenessClassification	准确率	0.783	0.698	0.655	0.616
KinopoiskClassification	准确率	0.705	0.595	0.661	0.566
RiaNewsRetrieval	NDCG@10	0.868	0.721	0.824	0.807
RuBQReranking	MAP@10	0.771	0.711	0.717	0.756
RuBQRetrieval	NDCG@10	0.724	0.654	0.692	0.741
RuReviewsClassification	准确率	0.751	0.658	0.686	0.653
RuSTSBenchmarkSTS	皮尔逊相关系数	0.814	0.803	0.840	0.831
RuSciBenchGRNTIClassification	准确率	0.699	0.625	0.651	0.582
RuSciBenchGRNTIClusteringP2P	V-measure	0.670	0.586	0.622	0.520
RuSciBenchOECDClassification	准确率	0.546	0.493	0.502	0.445
RuSciBenchOECDClusteringP2P	V-measure	0.566	0.507	0.528	0.450
SensitiveTopicsClassification	准确率	0.398	0.373	0.323	0.257
TERRaClassification	平均精度	0.665	0.606	0.639	0.584

模型名称	指标	Frida	rubert-mini-frida	multilingual-e5-large-instruct	multilingual-e5-large
Classification	准确率	0.707	0.631	0.654	0.588
Clustering	V-measure	0.673	0.597	0.631	0.525
MultiLabelClassification	准确率	0.522	0.463	0.412	0.353
PairClassification	平均精度	0.665	0.606	0.639	0.584
Reranking	MAP@10	0.771	0.711	0.717	0.756
Retrieval	NDCG@10	0.796	0.687	0.758	0.774
STS	皮尔逊相关系数	0.814	0.803	0.840	0.831
Average	平均值	0.707	0.643	0.664	0.630

📦 安装指南

文档未提及安装步骤，可参考相关库的官方文档进行安装，如 transformers 和 sentence_transformers。

💻 使用示例

基础用法

使用 `transformers` 库

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel


def pool(hidden_state, mask, pooling_method="mean"):
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]

inputs = [
    # 
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    # 
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
]

tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-mini-frida")
model = AutoModel.from_pretrained("sergeyzh/rubert-mini-frida")

tokenized_inputs = tokenizer(inputs, max_length=512, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    outputs = model(**tokenized_inputs)
    
embeddings = pool(
    outputs.last_hidden_state, 
    tokenized_inputs["attention_mask"],
    pooling_method="mean"
)

embeddings = F.normalize(embeddings, p=2, dim=1)
sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.9423348903656006, 0.8306248188018799, 0.7095720767974854]
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA

使用 `sentence_transformers` 库（sentence-transformers>=2.4.0）

from sentence_transformers import SentenceTransformer

# loads model with mean pooling
model = SentenceTransformer("sergeyzh/rubert-mini-frida")

paraphrase = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt="paraphrase: ")
print(paraphrase[0] @ paraphrase[1].T) 
# 0.94233495
# 0.9360032 - FRIDA

categorize_entailment = model.encode(["Женщину доставили в больницу, за ее жизнь сейчас борются врачи.", "Женщину спасают врачи."], prompt="categorize_entailment: ")
print(categorize_entailment[0] @ categorize_entailment[1].T) 
# 0.8306249
# 0.8591322 - FRIDA

query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt="search_query: ")
document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt="search_document: ")
print(query_embedding @ document_embedding.T) 
# 0.70957196
# 0.7285831 - FRIDA