Xlm Roberta Ua Distilled
これはxlm-roberta-baseをファインチューニングした文変換モデルで、英語とウクライナ語をサポートし、意味的テキスト類似度や意味検索などのタスクに使用できます。
ダウンロード数 121
リリース時間 : 4/13/2025
モデル概要
このモデルは文や段落を768次元の密ベクトル空間にマッピングし、意味的テキスト類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのタスクに適しています。
モデル特徴
多言語サポート
英語とウクライナ語の意味理解と類似度計算をサポート
高次元ベクトル表現
テキストを768次元の密ベクトル空間にマッピングし、豊富な意味情報を捕捉
知識蒸留トレーニング
知識蒸留手法でモデル性能を最適化
モデル能力
意味的テキスト類似度計算
クロスランゲージ意味検索
テキストベクトル化表現
多言語テキスト分類
テキストクラスタリング分析
使用事例
クロスランゲージ情報検索
英語-ウクライナ語ドキュメント検索
英語クエリでウクライナ語ドキュメントを検索
ピアソン類似度0.5926(sts17-en-uaデータセット)
意味的類似度分析
同一言語テキスト類似度評価
英語またはウクライナ語テキストペアの意味的類似度を評価
英語-英語スピアマン類似度0.7308(sts17-en-enデータセット)
tags:
- sentence-transformers
- 文類似性
- 特徴量抽出
- generated_from_trainer
- dataset_size:523982
- loss:MSELoss base_model: FacebookAI/xlm-roberta-base pipeline_tag: 文類似性 library_name: sentence-transformers metrics:
- negative_mse
- pearson_cosine
- spearman_cosine model-index:
- name: FacebookAI/xlm-roberta-baseを基にしたSentenceTransformer
results:
- task:
type: 知識蒸留
name: 知識蒸留
dataset:
name: mse en ua
type: mse-en-ua
metrics:
- type: negative_mse value: -1.1089269071817398 name: 負のMSE
- task:
type: 意味的類似性
name: 意味的類似性
dataset:
name: sts17 en en
type: sts17-en-en
metrics:
- type: pearson_cosine value: 0.6784819487397877 name: ピアソンコサイン
- type: spearman_cosine value: 0.7308493185913256 name: スピアマンコサイン
- task:
type: 意味的類似性
name: 意味的類似性
dataset:
name: sts17 en ua
type: sts17-en-ua
metrics:
- type: pearson_cosine value: 0.592555339963418 name: ピアソンコサイン
- type: spearman_cosine value: 0.6197606373137193 name: スピアマンコサイン
- task:
type: 意味的類似性
name: 意味的類似性
dataset:
name: sts17 ua ua
type: sts17-ua-ua
metrics:
- type: pearson_cosine value: 0.6158998595292998 name: ピアソンコサイン
- type: spearman_cosine value: 0.6445750755380512 name: スピアマンコサイン license: mit datasets:
- task:
type: 知識蒸留
name: 知識蒸留
dataset:
name: mse en ua
type: mse-en-ua
metrics:
- sentence-transformers/parallel-sentences-talks
- sentence-transformers/parallel-sentences-tatoeba
- sentence-transformers/parallel-sentences-wikimatrix language:
- uk
- en
FacebookAI/xlm-roberta-baseを基にしたSentenceTransformer
これはFacebookAI/xlm-roberta-baseからファインチューニングされたsentence-transformersモデルです。文や段落を768次元の密なベクトル空間にマッピングし、意味的テキスト類似性、意味的検索、言い換えマイニング、テキスト分類、クラスタリングなどに使用できます。
👉 GitHubでモデルをチェックしてください。
モデル詳細
モデル説明
- モデルタイプ: センテンストランスフォーマー
- ベースモデル: FacebookAI/xlm-roberta-base
- 最大シーケンス長: 512トークン
- 出力次元数: 768次元
- 類似性関数: コサイン類似度
- トレーニングデータセット: parallel-sentences-talks, parallel-sentences-wikimatrix, parallel-sentences-tatoeba
- 言語: ウクライナ語、英語
- ライセンス: MIT
モデルソース
- ドキュメント: センテンストランスフォーマー ドキュメント
- リポジトリ: GitHubのセンテンストランスフォーマー
- Hugging Face: Hugging Faceのセンテンストランスフォーマー
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方法
直接使用(センテンストランスフォーマー)
まずセンテンストランスフォーマーライブラリをインストールします:
pip install -U sentence-transformers
その後、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
# 🤗 Hubからダウンロード
model = SentenceTransformer("panalexeu/xlm-roberta-ua-distilled")
# 推論を実行
sentences = [
"You'd better consult the doctor.",
'Краще проконсультуйся у лікаря.',
'Їх позначають як Aufklärungsfahrzeug 93 та Aufklärungsfahrzeug 97 відповідно.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 埋め込みの類似性スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
評価
メトリクス
知識蒸留
- データセット:
mse-en-ua
MSEEvaluator
で評価
メトリクス | 値 |
---|---|
negative_mse | -1.1089 |
意味的類似性
- データセット:
sts17-en-en
,sts17-en-ua
およびsts17-ua-ua
EmbeddingSimilarityEvaluator
で評価
メトリクス | sts17-en-en | sts17-en-ua | sts17-ua-ua |
---|---|---|---|
pearson_cosine | 0.6785 | 0.5926 | 0.6159 |
spearman_cosine | 0.7308 | 0.6198 | 0.6446 |
トレーニング詳細
トレーニングデータセット
- データセット: parallel-sentences-talks, parallel-sentences-wikimatrix, parallel-sentences-tatoeba
- サイズ: 523,982トレーニングサンプル
- 列:
english
,non_english
, およびlabel
- 最初の1000サンプルに基づくおおよその統計:
english non_english label type string string list details - 最小: 5トークン
- 平均: 21.11トークン
- 最大: 254トークン
- 最小: 4トークン
- 平均: 23.15トークン
- 最大: 293トークン
- サイズ: 768要素
- サンプル:
english non_english label Her real name is Lydia (リディア, Ridia), but she was mistaken for a boy and called Ricard.
Справжнє ім'я — Лідія, але її помилково сприйняли за хлопчика і назвали Рікард.
[0.15217968821525574, -0.17830222845077515, -0.12677159905433655, 0.22082313895225525, 0.40085524320602417, ...]
(Applause) So he didn't just learn water.
(Аплодисменти) Він не тільки вивчив слово "вода".
[-0.1058148592710495, -0.08846072107553482, -0.2684604823589325, -0.105219267308712, 0.3050258755683899, ...]
It is tightly integrated with SAM, the Storage and Archive Manager, and hence is often referred to as SAM-QFS.
Вона тісно інтегрована з SAM (Storage and Archive Manager), тому часто називається SAM-QFS.
[0.03270340710878372, -0.45798248052597046, -0.20090211927890778, 0.006579531356692314, -0.03178019821643829, ...]
- 損失:
MSELoss
評価データセット
- データセット: parallel-sentences-talks, parallel-sentences-wikimatrix, parallel-sentences-tatoeba
- サイズ: 3,838評価サンプル
- 列:
english
,non_english
, およびlabel
- 最初の1000サンプルに基づくおおよその統計:
english non_english label type string string list details - 最小: 5トークン
- 平均: 15.64トークン
- 最大: 143トークン
- 最小: 5トークン
- 平均: 16.98トークン
- 最大: 148トークン
- サイズ: 768要素
- サンプル:
english non_english label I have lost my wallet.
Я загубив гаманець.
[-0.11186987161636353, -0.03419225662946701, -0.31304317712783813, 0.0838347002863884, 0.108644500374794, ...]
It's a pharmaceutical product.
Це фармацевтичний продукт.
[0.04133488982915878, -0.4182000756263733, -0.30786487460136414, -0.09351564198732376, -0.023946482688188553, ...]
We've all heard of the Casual Friday thing.
Всі ми чули про «джинсову п’ятницю» (вільна форма одягу).
[-0.10697802156209946, 0.21002227067947388, -0.2513434886932373, -0.3718843460083008, 0.06871984899044037, ...]
- 損失:
MSELoss
トレーニングハイパーパラメータ
非デフォルトハイパーパラメータ
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16gradient_accumulation_steps
: 3num_train_epochs
: 4warmup_ratio
: 0.1
フレームワークバージョン
- Python: 3.11.11
- センテンストランスフォーマー: 3.4.1
- トランスフォーマー: 4.51.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- データセット: 3.5.0
- トークナイザー: 0.21.0
引用
BibTeX
センテンストランスフォーマー
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MSELoss
@inproceedings{reimers-2020-multilingual-sentence-bert,
title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2020",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2004.09813",
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98