Roberta Base Use Qa Bg
R
Roberta Base Use Qa Bg
rmihaylovによって開発
これは多言語Robertaモデルで、ブルガリア語の文の埋め込みベクトルを生成するために使用できます。トレーニングのインスピレーションはSentence-BERTから得られ、教師モデルはGoogleのUSEモデルです。
ダウンロード数 14
リリース時間 : 4/18/2022
モデル概要
このモデルはブルガリア語の文の埋め込みベクトルを生成するために使用され、翻訳された文を原文と同じベクトル空間位置にマッピングすることで文の類似度計算を実現します。
モデル特徴
多言語サポート
ブルガリア語と英語の文埋め込み生成をサポート
大文字小文字の区別
モデルは大文字小文字を区別し、例えば'bulgarian'と'Bulgarian'は異なるものとして扱われます
Sentence-BERTの思想に基づく
翻訳文を同じベクトル空間位置にマッピングする方法を採用
教師モデルの使用
トレーニングプロセスでGoogleのUSEモデルを教師モデルとして使用
モデル能力
文の埋め込みベクトル生成
文の類似度計算
ブルガリア語処理のサポート
英語処理のサポート
使用事例
質問応答システム
質問と回答のマッチング
ユーザーの質問と候補回答の類似度を計算
例では、質問に最も関連性の高い回答を見つける方法を示しています
情報検索
関連ドキュメント検索
クエリ文に基づいて最も関連性の高いドキュメントを検索
🚀 ROBERTA BASE (cased) 非公開ブルガリア語 - 英語の並列データで学習
このモデルは、マルチリンガルなRobertaモデルです。ブルガリア語の文章の埋め込みを作成するために使用できます。
Sentence-BERT のアイデアを利用し、翻訳された文章が元の文章と同じベクトル空間上の位置にマッピングされるという考え方に基づいて学習が行われています。
教師モデルは GoogleのUSEモデル です。
このモデルは大文字小文字を区別します。つまり、「bulgarian」と「Bulgarian」は異なるものとして扱われます。
非公開のブルガリア語 - 英語の並列データで学習されています。
🚀 クイックスタート
このモデルは、ブルガリア語の文章の埋め込み作成に利用できます。学習は、翻訳文が原文と同じベクトル空間の位置にマッピングされるという考えに基づいて行われています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers scipy torch
💻 使用例
基本的な使用法
>>> import scipy
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>>
>>> model = AutoModel.from_pretrained('rmihaylov/roberta-base-use-qa-bg')
>>> tokenizer = AutoTokenizer.from_pretrained('rmihaylov/roberta-base-use-qa-bg')
>>>
>>> query = "Какви са съставките на бисквитките?"
>>>
>>> answers = [
>>> "Бисквитката е печена или варена храна, която обикновено е малка, плоска и сладка.",
>>> "Бисквитките обикновено съдържат брашно, захар и някакъв вид масло или мазнини. Те могат да включват други съставки като стафиди, овес, шоколадов чипс, ядки и др.",
>>> "В повечето англоговорящи страни, с изключение на САЩ и Канада, хрупкавите бисквитки се наричат бисквити.",
>>> "Бисквитите Chewier понякога се наричат бисквитки дори в Обединеното кралство. Някои бисквитки могат също да бъдат назовавани според формата им, като квадратчета с дата или барове.",
>>> "Бисквитките или бисквитите могат да се произвеждат масово във фабрики, направени в малки пекарни или домашно приготвени.",
>>> "Вариантите за бисквити или бисквити включват сандвич бисквити, като крем крем, Jammie Dodgers, Bourbons и Oreos, с пълнеж от ружа или конфитюр и понякога потопени в шоколад или друго сладко покритие.",
>>> "Бисквитките често се сервират с напитки като мляко, кафе или чай.",
>>> "Фабричните бисквитки се продават в магазини за хранителни стоки, магазини за удобство и автомати.",
>>> "Американската употреба произлиза от холандското koekje „малка торта“, което е умалително от „koek“ („торта“), което произлиза от средно холандската дума „koke“.",
>>> "Cookie Monster е Muppet в дългогодишното детско телевизионно шоу Sesame Street, който е най-известен с ненаситния си апетит към бисквитките и известните си фрази за ядене, като „Me want cookie!“, „Me eat cookie!“ (или просто „COOKIE!“) и „Om nom nom nom“ (казано през уста, пълна с храна).",
>>> "Бисквитите обикновено се правят от тесто, оформено на малки топчета и пуснато върху лист с бисквитки. След това се пекат във фурна за 5 до 15 минути, в зависимост от рецептата. Температурата на фурната варира от 250 до 350 градуса.",
>>> "Повечето бисквитки със среден размер, ако са направени със захар, брашно и скъсяване, ще съдържат между 100 и 200 калории.",
>>> ]
>>>
>>> query_embedding = model.question(**tokenizer.encode_plus(query, return_tensors='pt')).detach().numpy()[0]
>>>
>>> corpus, corpus_embeddings = [], []
>>> for answer in answers:
>>> value_inputs = tokenizer.encode_plus(answer, answer, return_tensors='pt')
>>> embedding = model.answer(**value_inputs).detach().numpy()[0]
>>> corpus.append(answer)
>>> corpus_embeddings.append(embedding)
>>>
>>> distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
>>>
>>> results = zip(range(len(distances)), distances)
>>> results = sorted(results, key=lambda x: x[1])
>>>
>>> print([[corpus[idx].strip(), (1.0 - distance)] for idx, distance in results])
[['Бисквитките обикновено съдържат брашно, захар и някакъв вид масло или мазнини. Те могат да включват други съставки като стафиди, овес, шоколадов чипс, ядки и др.',
0.620301064877746],
['Бисквитката е печена или варена храна, която обикновено е малка, плоска и сладка.',
0.5696434424179133],
['Повечето бисквитки със среден размер, ако са направени със захар, брашно и скъсяване, ще съдържат между 100 и 200 калории.',
0.5496458499598336],
['Бисквитките или бисквитите могат да се произвеждат масово във фабрики, направени в малки пекарни или домашно приготвени.',
0.5365738121336622],
['Бисквитите Chewier понякога се наричат \u200b\u200bбисквитки дори в Обединеното кралство. Някои бисквитки могат също да бъдат назовавани според формата им, като квадратчета с дата или барове.',
0.5278547550921155],
['Вариантите за бисквити или бисквити включват сандвич бисквити, като крем крем, Jammie Dodgers, Bourbons и Oreos, с пълнеж от ружа или конфитюр и понякога потопени в шоколад или друго сладко покритие.',
0.5231947553588652],
['Фабричните бисквитки се продават в магазини за хранителни стоки, магазини за удобство и автомати.',
0.5222493948012543],
['В повечето англоговорящи страни, с изключение на САЩ и Канада, хрупкавите бисквитки се наричат \u200b\u200bбисквити.',
0.5185776999549867],
['Бисквитите обикновено се правят от тесто, оформено на малки топчета и пуснато върху лист с бисквитки. След това се пекат във фурна за 5 до 15 минути, в зависимост от рецептата. Температурата на фурната варира от 250 до 350 градуса.',
0.5113299248563532],
['Cookie Monster е Muppet в дългогодишното детско телевизионно шоу Sesame Street, който е най-известен с ненаситния си апетит към бисквитките и известните си фрази за ядене, като „Me want cookie!“, „Me eat cookie!“ (или просто „COOKIE!“) и „Om nom nom nom“ (казано през уста, пълна с храна).',
0.4642001162793412],
['Бисквитките често се сервират с напитки като мляко, кафе или чай.',
0.44902199326988135],
['Американската употреба произлиза от холандското koekje „малка торта“, което е умалително от „koek“ („торта“), което произлиза от средно холандската дума „koke“.',
0.25256183690274214]]
📚 ドキュメント
モデル情報
属性 | 详情 |
---|---|
パイプラインタグ | 文章の類似度 |
言語 | ブルガリア語 (bg) |
ライセンス | MIT |
データセット | oscar、chitanka、wikipedia |
タグ | torch |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98