Reranker ModernBERT Base Gooaq Bce
これはModernBERT-baseからファインチューニングされたクロスエンコーダーモデルで、テキスト再ランキングと意味検索タスクに使用されます。
ダウンロード数 483
リリース時間 : 3/20/2025
モデル概要
このモデルはModernBERT-baseに基づくクロスエンコーダーで、テキストペアの類似度スコアを計算するために特別に設計されており、情報検索の再ランキングタスクに適しています。
モデル特徴
長文処理能力
最大8192トークンのシーケンス長をサポートし、長文処理に適しています
効率的な再ランキング
テキスト再ランキングタスクに最適化されており、GooAQデータセットで優れた性能を発揮します
二値分類
二値クロスエントロピー損失を使用してトレーニングされ、テキストペアの関連性スコアを出力します
モデル能力
テキスト類似度計算
情報検索結果の再ランキング
意味検索
使用事例
情報検索
検索エンジン結果の再ランキング
初期検索結果を再ランキングして関連性を向上させる
GooAQ開発セットで0.7713のNDCG@10を達成
質問応答システム
候補回答を関連性順に並べ替える
NanoNQデータセットで0.4630のNDCG@10を達成
language:
- en license: apache-2.0 tags:
- sentence-transformers
- cross-encoder
- generated_from_trainer
- dataset_size:578402
- loss:BinaryCrossEntropyLoss base_model: answerdotai/ModernBERT-base pipeline_tag: text-ranking library_name: sentence-transformers metrics:
- map
- mrr@10
- ndcg@10 model-index:
- name: GooAQで学習したModernBERT-base
results:
- task:
type: cross-encoder-reranking
name: クロスエンコーダー再ランキング
dataset:
name: gooaq dev
type: gooaq-dev
metrics:
- type: map value: 0.7308 name: Map
- type: mrr@10 value: 0.7292 name: Mrr@10
- type: ndcg@10 value: 0.7713 name: Ndcg@10
- task:
type: cross-encoder-reranking
name: クロスエンコーダー再ランキング
dataset:
name: NanoMSMARCO R100
type: NanoMSMARCO_R100
metrics:
- type: map value: 0.4579 name: Map
- type: mrr@10 value: 0.4479 name: Mrr@10
- type: ndcg@10 value: 0.5275 name: Ndcg@10
- task:
type: cross-encoder-reranking
name: クロスエンコーダー再ランキング
dataset:
name: NanoNFCorpus R100
type: NanoNFCorpus_R100
metrics:
- type: map value: 0.3414 name: Map
- type: mrr@10 value: 0.534 name: Mrr@10
- type: ndcg@10 value: 0.3821 name: Ndcg@10
- task:
type: cross-encoder-reranking
name: クロスエンコーダー再ランキング
dataset:
name: NanoNQ R100
type: NanoNQ_R100
metrics:
- type: map value: 0.3932 name: Map
- type: mrr@10 value: 0.3918 name: Mrr@10
- type: ndcg@10 value: 0.463 name: Ndcg@10
- task:
type: cross-encoder-nano-beir
name: クロスエンコーダーナノBEIR
dataset:
name: NanoBEIR R100 平均
type: NanoBEIR_R100_mean
metrics:
- type: map value: 0.3975 name: Map
- type: mrr@10 value: 0.4579 name: Mrr@10
- type: ndcg@10 value: 0.4575 name: Ndcg@10
- task:
type: cross-encoder-reranking
name: クロスエンコーダー再ランキング
dataset:
name: gooaq dev
type: gooaq-dev
metrics:
GooAQで学習したModernBERT-base
これはanswerdotai/ModernBERT-baseからsentence-transformersライブラリを使用してファインチューニングされたクロスエンコーダーモデルです。テキストペアのスコアを計算し、テキストの再ランキングや意味検索に使用できます。
トレーニングスクリプトについてはtraining_gooaq_bce.pyを参照してください。このスクリプトはクロスエンコーダー > トレーニング概要ドキュメントとトレーニングとファインチューニング リランカーモデル with Sentence Transformers v4ブログ投稿でも説明されています。
モデル詳細
モデル説明
- モデルタイプ: クロスエンコーダー
- ベースモデル: answerdotai/ModernBERT-base
- 最大シーケンス長: 8192トークン
- 出力ラベル数: 1ラベル
- 言語: en
- ライセンス: apache-2.0
モデルソース
- ドキュメント: Sentence Transformers ドキュメント
- ドキュメント: クロスエンコーダー ドキュメント
- リポジトリ: GitHubのSentence Transformers
- Hugging Face: Hugging Faceのクロスエンコーダー
使用方法
直接使用(Sentence Transformers)
まずSentence Transformersライブラリをインストールします:
pip install -U sentence-transformers
その後、このモデルをロードして推論を実行できます。
from sentence_transformers import CrossEncoder
# 🤗 Hubからダウンロード
model = CrossEncoder("tomaarsen/reranker-ModernBERT-base-gooaq-bce")
# テキストペアのスコアを取得
pairs = [
['なぜライチップはこんなにおいしいの?', "それでさらに美味しく感じるんです!ライチップが美味しいのは目立っているからで、袋の中で一番塩気が強いものです。ライパンが元々素晴らしいからではありません。...ライチップの袋を買えばいいだけです。"],
['なぜライチップはこんなにおいしいの?', 'ペットの使用を制限するようなライ麦に関連する実質的な技術的、栄養的または性能上の問題はありません。ライ麦は人間の食品や飲料においてかなり一般的な成分です。最も一般的なのはクラッカーやパンです。'],
['なぜライチップはこんなにおいしいの?', 'ライ麦粉だけで作られたパンはドイツで作られ、プンパーニッケルと呼ばれます。ライ麦は胚乳に高いレベルの繊維を持っているという点で穀物の中でユニークです。そのため、ライ麦製品の血糖指数(GI)は一般に小麦や他のほとんどの穀物から作られた製品よりも低くなります。'],
['なぜライチップはこんなにおいしいの?', 'KFCチップス - 味付けチップスの塩ミックスと実際のチップスには動物性製品は含まれていません。チップスと調味料のサプライヤーは、これらがビーガンに適していることを確認しています。'],
['なぜライチップはこんなにおいしいの?', 'アメリカ臨床栄養学雑誌の研究によると、ライ麦を食べると小麦と比較して血糖値のコントロールが改善されます。ライ麦パンは血圧をコントロールし心臓の健康を最適化するマグネシウムが豊富です。その高い可溶性繊維レベルはコレステロールを減らすこともできます。'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
# または、単一のテキストに基づいて異なるテキストをランク付け
ranks = model.rank(
'なぜライチップはこんなにおいしいの?',
[
"それでさらに美味しく感じるんです!ライチップが美味しいのは目立っているからで、袋の中で一番塩気が強いものです。ライパンが元々素晴らしいからではありません。...ライチップの袋を買えばいいだけです。",
'ペットの使用を制限するようなライ麦に関連する実質的な技術的、栄養的または性能上の問題はありません。ライ麦は人間の食品や飲料においてかなり一般的な成分です。最も一般的なのはクラッカーやパンです。',
'ライ麦粉だけで作られたパンはドイツで作られ、プンパーニッケルと呼ばれます。ライ麦は胚乳に高いレベルの繊維を持っているという点で穀物の中でユニークです。そのため、ライ麦製品の血糖指数(GI)は一般に小麦や他のほとんどの穀物から作られた製品よりも低くなります。',
'KFCチップス - 味付けチップスの塩ミックスと実際のチップスには動物性製品は含まれていません。チップスと調味料のサプライヤーは、これらがビーガンに適していることを確認しています。',
'アメリカ臨床栄養学雑誌の研究によると、ライ麦を食べると小麦と比較して血糖値のコントロールが改善されます。ライ麦パンは血圧をコントロールし心臓の健康を最適化するマグネシウムが豊富です。その高い可溶性繊維レベルはコレステロールを減らすこともできます。',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
評価
メトリクス
クロスエンコーダー再ランキング
- データセット:
gooaq-dev
- 評価パラメータ:
{ "at_k": 10, "always_rerank_positives": false }
メトリクス | 値 |
---|---|
map | 0.7308 (+0.1997) |
mrr@10 | 0.7292 (+0.2052) |
ndcg@10 | 0.7713 (+0.1801) |
クロスエンコーダー再ランキング
- データセット:
gooaq-dev
- 評価パラメータ:
{ "at_k": 10, "always_rerank_positives": true }
メトリクス | 値 |
---|---|
map | 0.7908 (+0.2597) |
mrr@10 | 0.7890 (+0.2650) |
ndcg@10 | 0.8351 (+0.2439) |
クロスエンコーダー再ランキング
- データセット:
NanoMSMARCO_R100
,NanoNFCorpus_R100
,NanoNQ_R100
- 評価パラメータ:
{ "at_k": 10, "always_rerank_positives": true }
メトリクス | NanoMSMARCO_R100 | NanoNFCorpus_R100 | NanoNQ_R100 |
---|---|---|---|
map | 0.4579 (-0.0317) | 0.3414 (+0.0804) | 0.3932 (-0.0264) |
mrr@10 | 0.4479 (-0.0296) | 0.5340 (+0.0342) | 0.3918 (-0.0349) |
ndcg@10 | 0.5275 (-0.0130) | 0.3821 (+0.0571) | 0.4630 (-0.0377) |
クロスエンコーダーナノBEIR
- データセット:
NanoBEIR_R100_mean
- 評価パラメータ:
{ "dataset_names": [ "msmarco", "nfcorpus", "nq" ], "rerank_k": 100, "at_k": 10, "always_rerank_positives": true }
メトリクス | 値 |
---|---|
map | 0.3975 (+0.0074) |
mrr@10 | 0.4579 (-0.0101) |
ndcg@10 | 0.4575 (+0.0022) |
トレーニング詳細
トレーニングデータセット
無名データセット
- サイズ: 578,402トレーニングサンプル
- 列:
question
,answer
,label
- 最初の1000サンプルに基づく近似統計:
question answer label type string string int details - 最小: 19文字
- 平均: 45.14文字
- 最大: 85文字
- 最小: 65文字
- 平均: 254.8文字
- 最大: 379文字
- 0: ~82.90%
- 1: ~17.10%
- サンプル:
question answer label なぜライチップはこんなにおいしいの?
それでさらに美味しく感じるんです!ライチップが美味しいのは目立っているからで、袋の中で一番塩気が強いものです。ライパンが元々素晴らしいからではありません。...ライチップの袋を買えばいいだけです。
1
なぜライチップはこんなにおいしいの?
ペットの使用を制限するようなライ麦に関連する実質的な技術的、栄養的または性能上の問題はありません。ライ麦は人間の食品や飲料においてかなり一般的な成分です。最も一般的なのはクラッカーやパンです。
0
なぜライチップはこんなにおいしいの?
ライ麦粉だけで作られたパンはドイツで作られ、プンパーニッケルと呼ばれます。ライ麦は胚乳に高いレベルの繊維を持っているという点で穀物の中でユニークです。そのため、ライ麦製品の血糖指数(GI)は一般に小麦や他のほとんどの穀物から作られた製品よりも低くなります。
0
- 損失関数:
BinaryCrossEntropyLoss
パラメータ:{ "activation_fct": "torch.nn.modules.linear.Identity", "pos_weight": 5 }
トレーニングハイパーパラメータ
非デフォルトハイパーパラメータ
eval_strategy
: stepsper_device_train_batch_size
: 64per_device_eval_batch_size
: 64learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1seed
: 12bf16
: Truedataloader_num_workers
: 4load_best_model_at_end
: True
フレームワークバージョン
- Python: 3.11.10
- Sentence Transformers: 3.5.0.dev0
- Transformers: 4.49.0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.5.2
- Datasets: 2.21.0
- Tokenizers: 0.21.0
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98