Slovakbert Skquad Mnlr
S
Slovakbert Skquad Mnlr
TUKE-DeutscheTelekomによって開発
これはスロバキア語BERTをベースにした文変換モデルで、文の類似度計算や特徴抽出タスクに特化しています。
ダウンロード数 35
リリース時間 : 2/17/2023
モデル概要
このモデルはgerulata/slovakbertで訓練され、文の埋め込みベクトル生成、文の類似度計算や特徴抽出をサポートします。
モデル特徴
効率的な文埋め込み
文を768次元の密なベクトル表現に変換可能
最適化された類似度計算
MultipleNegativesRankingLossを使用して訓練され、文の類似度計算を最適化
長文サポート
最大300トークンのテキスト入力をサポート
モデル能力
文特徴抽出
文類似度計算
意味検索
使用事例
情報検索
質問応答システム
質問と関連する回答段落をマッチング
テキスト分析
文書クラスタリング
意味的類似度に基づいて文書をグループ化
🚀 SentenceTransformer(sentence-transformers)
sentence-transformersは、文の類似性や特徴抽出を行うためのライブラリです。このモデルはgerulata/slovakbertをベースに構築されています。
🚀 クイックスタート
このモデルを使用するには、まずSentence Transformersライブラリをインストールする必要があります。
pip install -U sentence-transformers
次に、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
# 🤗 Hubからダウンロード
model = SentenceTransformer("sentence_transformers_model_id")
# 推論の実行
sentences = [
'Prvý most cez Zlatý roh nechal vybudovať cisár Justinián I. V roku 1502 vypísal sultán Bajazid II. súťaž na stavbu nového mosta, do ktorej sa prihlásili aj Leonardo da Vinci a Michelangelo Buonarroti, ale z realizácie návrhov nakoniec zišlo. V roku 1863 vznikol druhý, drevený most, ktorý v roku 1875 nahradil železný most, postavený francúzskymi staviteľmi. Štvrtý most postavili Nemci v roku 1912 a slúžil až do roku 1992, kedy bol zničený požiarom. Bolo rozhodnuté o stavbe mosta súčasného, ktorý vybudovala domáca firma STFA Group.',
'V ktorom roku vznikol druhý drevený most cez záliv Zlatý roh ?',
'Aká je priemerná dĺžka života v Eritrei ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 埋め込みベクトルの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
✨ 主な機能
- 文の類似性を計算することができます。
- 文の特徴抽出を行うことができます。
📦 インストール
このモデルを使用するには、Sentence Transformersライブラリをインストールする必要があります。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
# 🤗 Hubからダウンロード
model = SentenceTransformer("sentence_transformers_model_id")
# 推論の実行
sentences = [
'Prvý most cez Zlatý roh nechal vybudovať cisár Justinián I. V roku 1502 vypísal sultán Bajazid II. súťaž na stavbu nového mosta, do ktorej sa prihlásili aj Leonardo da Vinci a Michelangelo Buonarroti, ale z realizácie návrhov nakoniec zišlo. V roku 1863 vznikol druhý, drevený most, ktorý v roku 1875 nahradil železný most, postavený francúzskymi staviteľmi. Štvrtý most postavili Nemci v roku 1912 a slúžil až do roku 1992, kedy bol zničený požiarom. Bolo rozhodnuté o stavbe mosta súčasného, ktorý vybudovala domáca firma STFA Group.',
'V ktorom roku vznikol druhý drevený most cez záliv Zlatý roh ?',
'Aká je priemerná dĺžka života v Eritrei ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 埋め込みベクトルの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 ドキュメント
モデルの詳細
属性 | 詳情 |
---|---|
モデルタイプ | Sentence Transformer |
ベースモデル | gerulata/slovakbert |
最大シーケンス長 | 300トークン |
出力次元数 | 768トークン |
類似度関数 | コサイン類似度 |
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 300, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
学習の詳細
学習データセット
無名データセット
- サイズ: 65,699個の学習サンプル
- 列:
sentence_0
、sentence_1
、sentence_2
- 最初の1000サンプルに基づく概算統計情報:
sentence_0 sentence_1 sentence_2 タイプ 文字列 文字列 文字列 詳細 - 最小: 99トークン
- 平均: 185.5トークン
- 最大: 300トークン
- 最小: 6トークン
- 平均: 14.74トークン
- 最大: 34トークン
- 最小: 7トークン
- 平均: 15.05トークン
- 最大: 34トークン
- サンプル:
sentence_0 sentence_1 sentence_2 Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný.
V ktorom roku bol rímskokatolícky misionár Jozef Filus vysvätený za kňaza ?
V ktorom roku nebol rímskokatolícky misionár Jozef Filus vysvätený za kňaza ?
Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný.
Kam emigroval rímskokatolícky misionár Jozef Filus v roku 1951 ?
Kam emigroval rímskokatolícky misionár Jozef Filus v roku 2001 ?
Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný.
Kde študoval rímskokatolícky misionár Jozef Filus filozofiu ?
Kde študoval rímskokatolícky misionár Jozef Filus medicínu ?
- 損失関数:
MultipleNegativesRankingLoss
これらのパラメータを使用:{ "scale": 20.0, "similarity_fct": "cos_sim" }
学習ハイパーパラメータ
デフォルトではないハイパーパラメータ
per_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 1fp16
: Truemulti_dataset_batch_sampler
: round_robin
すべてのハイパーパラメータ
クリックして展開
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: No
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98