tags:
- sentence-transformers
- cross-encoder
- generated_from_trainer
- dataset_size:23770
- loss:MultipleNegativesRankingLoss
base_model: cross-encoder/ms-marco-MiniLM-L12-v2
pipeline_tag: text-ranking
library_name: sentence-transformers
metrics:
- map
- mrr@5
- ndcg@5
model-index:
- name: cross-encoder/ms-marco-MiniLM-L12-v2を基にしたCrossEncoder
results:
- task:
type: cross-encoder-reranking
name: クロスエンコーダー再ランキング
dataset:
name: claims evidence dev
type: claims-evidence-dev
metrics:
- type: map
value: 0.9904
name: 平均適合率 (Map)
- type: mrr@5
value: 1.0
name: 平均逆順位@5 (Mrr@5)
- type: ndcg@5
value: 0.9882
name: 正規化割引累積利得@5 (Ndcg@5)
cross-encoder/ms-marco-MiniLM-L12-v2を基にしたCrossEncoder
このモデルは、sentence-transformersライブラリを使用してcross-encoder/ms-marco-MiniLM-L12-v2からファインチューニングされたクロスエンコーダーモデルです。テキストのペアに対してスコアを計算し、テキストの再ランキングや意味的検索に使用できます。
モデル詳細
モデル説明
モデルソース
使用方法
直接使用(Sentence Transformers)
まずSentence Transformersライブラリをインストールします:
pip install -U sentence-transformers
その後、このモデルをロードして推論を実行できます。
from sentence_transformers import CrossEncoder
model = CrossEncoder("Davidsamuel101/ft-ms-marco-MiniLM-L12-v2-claims-reranker-v2")
pairs = [
['CO2が汚染物質であるという科学的証拠はないだけでなく、CO2濃度が高いほど生態系がより多くの動植物を支えるのに役立ちます。', '非常に高い濃度(大気濃度の100倍以上)では、二酸化炭素は動物の生命にとって有毒である可能性があるため、濃度を10,000 ppm(1%)以上に数時間上げると、温室のコナジラミやハダニなどの害虫を駆除できます。'],
['CO2が汚染物質であるという科学的証拠はないだけでなく、CO2濃度が高いほど生態系がより多くの動植物を支えるのに役立ちます。', '植物は、周囲の条件と比較して、1,000 ppm CO2の濃度で最大50%速く成長することができますが、これは気候の変化や他の栄養素の制限がないことを前提としています。'],
['CO2が汚染物質であるという科学的証拠はないだけでなく、CO2濃度が高いほど生態系がより多くの動植物を支えるのに役立ちます。', '二酸化炭素濃度が高いほど、植物の成長と水需要に好影響を与えます。'],
['CO2が汚染物質であるという科学的証拠はないだけでなく、CO2濃度が高いほど生態系がより多くの動植物を支えるのに役立ちます。', "地球の大気中の二酸化炭素は、生命と惑星の生物圏の大部分にとって不可欠です。"],
['CO2が汚染物質であるという科学的証拠はないだけでなく、CO2濃度が高いほど生態系がより多くの動植物を支えるのに役立ちます。', 'Rennie 2009: 「主張1: 人為的なCO2は気候を変えることはできません。なぜなら、CO2は大気中の微量ガスに過ぎず、人間が生産する量は火山や他の自然源からの量に比べて小さいからです。」'],
]
scores = model.predict(pairs)
print(scores.shape)
ranks = model.rank(
'CO2が汚染物質であるという科学的証拠はないだけでなく、CO2濃度が高いほど生態系がより多くの動植物を支えるのに役立ちます。',
[
'非常に高い濃度(大気濃度の100倍以上)では、二酸化炭素は動物の生命にとって有毒である可能性があるため、濃度を10,000 ppm(1%)以上に数時間上げると、温室のコナジラミやハダニなどの害虫を駆除できます。',
'植物は、周囲の条件と比較して、1,000 ppm CO2の濃度で最大50%速く成長することができますが、これは気候の変化や他の栄養素の制限がないことを前提としています。',
'二酸化炭素濃度が高いほど、植物の成長と水需要に好影響を与えます。',
"地球の大気中の二酸化炭素は、生命と惑星の生物圏の大部分にとって不可欠です。",
'Rennie 2009: 「主張1: 人為的なCO2は気候を変えることはできません。なぜなら、CO2は大気中の微量ガスに過ぎず、人間が生産する量は火山や他の自然源からの量に比べて小さいからです。」',
]
)
評価
評価指標
クロスエンコーダー再ランキング
指標 |
値 |
平均適合率 (map) |
0.9904 (-0.0096) |
平均逆順位@5 (mrr@5) |
1.0000 (+0.0000) |
正規化割引累積利得@5 (ndcg@5) |
0.9882 (-0.0118) |
トレーニング詳細
トレーニングデータセット
無名データセット
トレーニングハイパーパラメータ
非デフォルトハイパーパラメータ
eval_strategy
: steps
per_device_train_batch_size
: 16
learning_rate
: 3e-06
num_train_epochs
: 5
bf16
: True
load_best_model_at_end
: True
フレームワークバージョン
- Python: 3.13.2
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.7.0+cu128
- Accelerate: 1.6.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}