roberta-base-nli-stsb-theseus-bg开源多语言模型 - 免费生成保英双语句子嵌入向量

首页

Roberta Base Nli Stsb Theseus Bg

由 rmihaylov 开发

这是一个多语言Roberta模型，可用于生成保加利亚语句子的嵌入向量，基于Sentence-BERT理念训练，支持保加利亚语和英语。

文本嵌入

Transformers

其他开源协议:MIT #保加利亚语嵌入 #双语对齐 #句子相似度

下载量 14

发布时间 : 4/18/2022

模型简介

该模型基于Sentence-BERT理念训练，核心思想是翻译后的句子应与原句在向量空间中映射到相同位置。模型区分大小写，后期通过渐进式模块替换技术进行了压缩优化。

模型特点

多语言支持

支持保加利亚语和英语的句子嵌入生成

区分大小写

能够区分单词的大小写形式，如'bulgarian'和'Bulgarian'会被视为不同词汇

渐进式模块替换优化

通过渐进式模块替换技术进行了压缩优化，提高了模型效率

基于Sentence-BERT理念

采用Sentence-BERT的训练方法，使翻译对在向量空间中映射到相近位置

模型能力

句子嵌入生成

跨语言句子相似度计算

文本语义匹配

使用案例

信息检索

跨语言文档检索

使用保加利亚语查询检索相关英语文档

问答系统

相似问题匹配

在问答系统中匹配语义相似的保加利亚语问题

如示例所示，能准确识别与'饼干成分'最相关的问题

🚀 ROBERTA BASE (cased) 在保加利亚语 - 英语私有平行数据上训练的模型

这是一个多语言Roberta模型，可用于创建保加利亚语句子的嵌入表示。该模型借鉴了 Sentence - BERT 的思想，基于翻译后的句子应与原句在向量空间中映射到相同位置的理念进行训练。

此模型区分大小写，例如能区分 “bulgarian” 和 “Bulgarian”。它在保加利亚语 - 英语私有平行数据上进行训练，之后通过渐进式模块替换方法进行了压缩。

🚀 快速开始

本模型是一个多语言Roberta模型，可用于创建保加利亚语句子的嵌入表示。它基于翻译后的句子应与原句在向量空间中映射到相同位置的理念进行训练。

✨ 主要特性

多语言处理：可用于处理保加利亚语句子。
大小写敏感：能够区分大小写，例如 “bulgarian” 和 “Bulgarian” 会被视为不同的内容。
训练方式：在保加利亚语 - 英语私有平行数据上训练，并通过渐进式模块替换方法进行压缩。

📦 安装指南

文档中未提及具体安装步骤，可根据使用的深度学习框架（如PyTorch）的常规安装方式进行安装。

💻 使用示例

基础用法

>>> import scipy
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> 
>>> model = AutoModel.from_pretrained('rmihaylov/roberta-base-nli-stsb-theseus-bg')
>>> tokenizer = AutoTokenizer.from_pretrained('rmihaylov/roberta-base-nli-stsb-theseus-bg')
>>>
>>> def embed(text):
>>>     inputs = tokenizer.encode_plus(text, return_tensors='pt')
>>>     outputs = model(**inputs)
>>>     sequence_output = outputs[0]
>>>     input_mask_expanded = inputs['attention_mask'].unsqueeze(-1).expand(sequence_output.size()).float()
>>>     embeddings = torch.sum(sequence_output * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
>>>     return embeddings.detach().numpy()[0]
>>> 
>>> 
>>> query_embedding = embed("Какви са съставките на бисквитките?")
>>> 
>>> questions = [
>>>     "Какво е бисквитка?",
>>>     "От какво са направени бисквитките?",
>>>     "Използват ли в Англия думата бисквитки?",
>>>     "Къде се правят бисквитките?",
>>>     "Какви видове бисквитки има?",
>>>     "Къде човек може да купи бисквитки?",
>>>     "Откъде дойде думата бисквитка?",
>>>     "Кое е чудовището на бисквитките?",
>>>     "Как да си направите бисквитки у дома?",
>>>     "Колко калории има типичната бисквитка?",
>>>     "Какви напитки вървят добре с бисквитките?",
>>>     "Бисквитките наричат ли се също сладки?"
>>>     ]
>>> 
>>> corpus, corpus_embeddings = [], []
>>> for question in questions:
>>>     embedding = embed(question)
>>>     corpus.append(question)
>>>     corpus_embeddings.append(embedding)
>>> 
>>> distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
>>> 
>>> results = zip(range(len(distances)), distances)
>>> results = sorted(results, key=lambda x: x[1])
>>> 
>>> print([[corpus[idx].strip(), (1.0 - distance)] for idx, distance in results])

[['От какво са направени бисквитките?', 0.9855158537034977],
 ['Къде се правят бисквитките?', 0.9774093134195002],
 ['Какви видове бисквитки има?', 0.9766014240577192],
 ['Използват ли в Англия думата бисквитки?', 0.9446492058523037],
 ['Кое е чудовището на бисквитките?', 0.9269786184641834],
 ['Къде човек може да купи бисквитки?', 0.9268900421152592],
 ['Какво е бисквитка?', 0.9188155080718263],
 ['Бисквитките наричат ли се също сладки?', 0.9060368627614406],
 ['Откъде дойде думата бисквитка?', 0.9048309659657036],
 ['Какви напитки вървят добре с бисквитките?', 0.890836765118977],
 ['Как да си направите бисквитки у дома?', 0.8878968487540497],
 ['Колко калории има типичната бисквитка?', 0.8652821650136402]]

🔧 技术细节

本模型借鉴了 Sentence - BERT 的思想，基于翻译后的句子应与原句在向量空间中映射到相同位置的理念进行训练。它在保加利亚语 - 英语私有平行数据上进行训练，之后通过渐进式模块替换方法进行了压缩。

📄 许可证

本模型使用的许可证为MIT许可证。

属性	详情
模型类型	多语言Roberta模型
训练数据	oscar、chitanka、wikipedia以及保加利亚语 - 英语私有平行数据
标签	torch
推理	否
任务类型	句子相似度
语言	保加利亚语