🚀 Sentence Transformers
Sentence Transformersは、文の類似度を計算するためのモデルです。対象のデータセットやユースケースに近い sentence-transformers/all-MiniLM-L6-v2
をフォークしています。詳細については、事前学習済みモデルの重みリポジトリをご確認ください。
✨ 主な機能
- 文の類似度を計算することができます。
- 事前学習済みモデルをフォークしているため、高速に学習することができます。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
このREADMEにはコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
ファインチューニング
- モデルを対照的な目的関数を使用してファインチューニングします。
- バッチ内のすべての可能な文のペアからコサイン類似度を計算します。
- その後、真のペアと比較して交差エントロピー損失を適用します。
ハイパーパラメータ
- バッチサイズ1024(TPUコアあたり128)で100kステップの間モデルを学習させます。
- 学習率のウォームアップを500ステップ行います。
- シーケンス長を128トークンに制限します。
- 学習率2e-5のAdamWオプティマイザを使用します。
- 完全な学習スクリプトは、このリポジトリ内の
train_script.py
でアクセスできます。
性能
モデル名 |
文埋め込みの性能 (14データセット) |
意味検索の性能 (6データセット) |
平均性能 |
速度 |
モデルサイズ |
all-mpnet-base-v2 |
69.57 |
57.02 |
63.30 |
2800 |
420 MB |
multi-qa-mpnet-base-dot-v1 |
66.76 |
57.60 |
62.18 |
2800 |
420 MB |
all-distilroberta-v1 |
68.73 |
50.94 |
59.84 |
4000 |
290 MB |
all-MiniLM-L12-v2 |
68.70 |
50.82 |
59.76 |
7500 |
120 MB |
multi-qa-distilbert-cos-v1 |
65.98 |
52.83 |
59.41 |
4000 |
250 MB |
all-MiniLM-L6-v2 (このモデル) |
68.06 |
49.54 |
58.80 |
14200 |
80 MB |
multi-qa-MiniLM-L6-cos-v1 |
64.33 |
51.83 |
58.08 |
14200 |
80 MB |
paraphrase-multilingual-mpnet-base-v2 |
65.83 |
41.68 |
53.75 |
2500 |
970 MB |
paraphrase-albert-small-v2 |
64.46 |
40.04 |
52.25 |
5000 |
43 MB |
paraphrase-multilingual-MiniLM-L12-v2 |
64.25 |
39.19 |
51.72 |
7500 |
420 MB |
paraphrase-MiniLM-L3-v2 |
62.29 |
39.19 |
50.74 |
19000 |
61 MB |
distiluse-base-multilingual-cased-v1 |
61.30 |
29.87 |
45.59 |
4000 |
480 MB |
distiluse-base-multilingual-cased-v2 |
60.18 |
27.35 |
43.77 |
4000 |
480 MB |
データセット
データセット |
論文 |
学習ペアの数 |
Reddit comments (2015-2018) |
論文 |
726,484,430 |
S2ORC 引用ペア (要約) |
論文 |
116,288,806 |
WikiAnswers 重複質問ペア |
論文 |
77,427,422 |
PAQ (質問, 回答) ペア |
論文 |
64,371,441 |
S2ORC 引用ペア (タイトル) |
論文 |
52,603,982 |
S2ORC (タイトル, 要約) |
論文 |
41,769,185 |
Stack Exchange (タイトル, 本文) ペア |
- |
25,316,456 |
Stack Exchange (タイトル+本文, 回答) ペア |
- |
21,396,559 |
Stack Exchange (タイトル, 回答) ペア |
- |
21,396,559 |
MS MARCO トリプレット |
論文 |
9,144,553 |
GOOAQ: Open Question Answering with Diverse Answer Types |
論文 |
3,012,496 |
Yahoo Answers (タイトル, 回答) |
論文 |
1,198,260 |
Code Search |
- |
1,151,414 |
COCO 画像キャプション |
論文 |
828,395 |
SPECTER 引用トリプレット |
論文 |
684,100 |
Yahoo Answers (質問, 回答) |
論文 |
681,164 |
Yahoo Answers (タイトル, 質問) |
論文 |
659,896 |
SearchQA |
論文 |
582,261 |
Eli5 |
論文 |
325,475 |
Flickr 30k |
論文 |
317,695 |
Stack Exchange 重複質問 (タイトル) |
|
304,525 |
AllNLI (SNLI と MultiNLI |
論文 SNLI, 論文 MultiNLI |
277,230 |
Stack Exchange 重複質問 (本文) |
|
250,519 |
Stack Exchange 重複質問 (タイトル+本文) |
|
250,460 |
Sentence Compression |
論文 |
180,000 |
Wikihow |
論文 |
128,542 |
Altlex |
論文 |
112,696 |
Quora Question Triplets |
- |
103,663 |
Simple Wikipedia |
論文 |
102,225 |
Natural Questions (NQ) |
論文 |
100,231 |
SQuAD2.0 |
論文 |
87,599 |
TriviaQA |
- |
73,346 |
合計 |
|
1,170,060,424 |
🔧 技術詳細
このREADMEには具体的な技術的な説明が50文字以上記載されていないため、このセクションをスキップします。
📄 ライセンス
このモデルは apache-2.0
ライセンスの下で提供されています。