roberta-base-nli-stsb-theseus-bgオープンソース多言語モデル - 無料でバルガリア語と英語のバイリンガル文埋め込みベクトルを生成

ホーム

Roberta Base Nli Stsb Theseus Bg

rmihaylovによって開発

これは多言語Robertaモデルで、ブルガリア語の文の埋め込みベクトルを生成するために使用でき、Sentence-BERTの概念に基づいてトレーニングされ、ブルガリア語と英語をサポートします。

テキスト埋め込み

Transformers

その他オープンソースライセンス:MIT #ブルガリア語埋め込み #バイリンガルアライメント #文類似度

ダウンロード数 14

リリース時間 : 4/18/2022

モデル概要

このモデルはSentence-BERTの概念に基づいてトレーニングされており、核心的な考え方は、翻訳された文は元の文と同じ位置にベクトル空間でマッピングされるべきであるということです。モデルは大文字小文字を区別し、後期には漸進的モジュール置換技術による圧縮最適化が行われました。

モデル特徴

多言語サポート

ブルガリア語と英語の文埋め込み生成をサポート

大文字小文字の区別

単語の大文字小文字形式を区別でき、例えば'bulgarian'と'Bulgarian'は異なる語彙として扱われます

漸進的モジュール置換最適化

漸進的モジュール置換技術による圧縮最適化が行われ、モデルの効率が向上しました

Sentence-BERTの概念に基づく

Sentence-BERTのトレーニング方法を採用し、翻訳ペアがベクトル空間内で近い位置にマッピングされるようにします

モデル能力

文埋め込み生成

クロスランゲージ文類似度計算

テキスト意味マッチング

使用事例

情報検索

クロスランゲージドキュメント検索

ブルガリア語のクエリを使用して関連する英語ドキュメントを検索

質問応答システム

類似質問マッチング

質問応答システムで意味的に類似するブルガリア語の質問をマッチング

例に示されているように、'クッキーの成分'に最も関連する質問を正確に識別できます

🚀 ROBERTA BASE (cased) ブルガリア語-英語の非公開並列データで学習

これは多言語のRobertaモデルです。ブルガリア語の文章の埋め込みを作成するために使用できます。

Sentence-BERT のアイデアを利用し、翻訳された文章は元の文章と同じベクトル空間の位置にマッピングされるという考えに基づいて学習が行われています。

このモデルは大文字小文字を区別します。つまり、bulgarian と Bulgarian は異なるものとして扱われます。

このモデルは、非公開のブルガリア語-英語の並列データで学習されました。

その後、progressive module replacing を通じて圧縮されました。

🚀 クイックスタート

このモデルは、ブルガリア語の文章の埋め込みを作成するために使用できます。学習は、翻訳された文章が元の文章と同じベクトル空間の位置にマッピングされるという考えに基づいて行われています。

✨ 主な機能

ブルガリア語の文章の埋め込みを作成できます。
大文字小文字を区別します。
非公開のブルガリア語-英語の並列データで学習されています。
progressive module replacing を通じて圧縮されています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install scipy torch transformers

💻 使用例

基本的な使用法

>>> import scipy
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> 
>>> model = AutoModel.from_pretrained('rmihaylov/roberta-base-nli-stsb-theseus-bg')
>>> tokenizer = AutoTokenizer.from_pretrained('rmihaylov/roberta-base-nli-stsb-theseus-bg')
>>>
>>> def embed(text):
>>>     inputs = tokenizer.encode_plus(text, return_tensors='pt')
>>>     outputs = model(**inputs)
>>>     sequence_output = outputs[0]
>>>     input_mask_expanded = inputs['attention_mask'].unsqueeze(-1).expand(sequence_output.size()).float()
>>>     embeddings = torch.sum(sequence_output * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
>>>     return embeddings.detach().numpy()[0]
>>> 
>>> 
>>> query_embedding = embed("Какви са съставките на бисквитките?")
>>> 
>>> questions = [
>>>     "Какво е бисквитка?",
>>>     "От какво са направени бисквитките?",
>>>     "Използват ли в Англия думата бисквитки?",
>>>     "Къде се правят бисквитките?",
>>>     "Какви видове бисквитки има?",
>>>     "Къде човек може да купи бисквитки?",
>>>     "Откъде дойде думата бисквитка?",
>>>     "Кое е чудовището на бисквитките?",
>>>     "Как да си направите бисквитки у дома?",
>>>     "Колко калории има типичната бисквитка?",
>>>     "Какви напитки вървят добре с бисквитките?",
>>>     "Бисквитките наричат ли се също сладки?"
>>>     ]
>>> 
>>> corpus, corpus_embeddings = [], []
>>> for question in questions:
>>>     embedding = embed(question)
>>>     corpus.append(question)
>>>     corpus_embeddings.append(embedding)
>>> 
>>> distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
>>> 
>>> results = zip(range(len(distances)), distances)
>>> results = sorted(results, key=lambda x: x[1])
>>> 
>>> print([[corpus[idx].strip(), (1.0 - distance)] for idx, distance in results])

[['От какво са направени бисквитките?', 0.9855158537034977],
 ['Къде се правят бисквитките?', 0.9774093134195002],
 ['Какви видове бисквитки има?', 0.9766014240577192],
 ['Използват ли в Англия думата бисквитки?', 0.9446492058523037],
 ['Кое е чудовището на бисквитките?', 0.9269786184641834],
 ['Къде човек може да купи бисквитки?', 0.9268900421152592],
 ['Какво е бисквитка?', 0.9188155080718263],
 ['Бисквитките наричат ли се също сладки?', 0.9060368627614406],
 ['Откъде дойде думата бисквитка?', 0.9048309659657036],
 ['Какви напитки вървят добре с бисквитките?', 0.890836765118977],
 ['Как да си направите бисквитки у дома?', 0.8878968487540497],
 ['Колко калории има типичната бисквитка?', 0.8652821650136402]]

📚 ドキュメント

このモデルの詳細なドキュメントについては、以下の情報を参考にしてください。

モデル情報

属性	详情
モデルタイプ	多言語Robertaモデル
学習データ	非公開のブルガリア語-英語の並列データ、oscar、chitanka、wikipedia
タグ	torch
ライセンス	MIT