tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:45
- loss:MultipleNegativesRankingLoss
base_model: BAAI/bge-base-en-v1.5
pipeline_tag: sentence-similarity
library_name: sentence-transformers
BAAI/bge-base-en-v1.5を基にしたSentenceTransformer
これはBAAI/bge-base-en-v1.5からファインチューニングされたsentence-transformersモデルです。文や段落を768次元の密なベクトル空間にマッピングし、意味的なテキスト類似性、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどに使用できます。
モデルの詳細
モデル説明
モデルソース
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': True}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方法
直接使用(Sentence Transformers)
まずSentence Transformersライブラリをインストールします:
pip install -U sentence-transformers
その後、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("datasocietyco/bge-base-en-v1.5-course-recommender-v5")
sentences = [
'今日の天気は素晴らしいです。',
"外はとても晴れています!",
'彼はスタジアムまで車で行きました。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
トレーニングの詳細
トレーニングデータセット
無名データセット
- サイズ: 45トレーニングサンプル
- 列:
anchor
と positive
- 最初の45サンプルに基づくおおよその統計:
|
anchor |
positive |
タイプ |
文字列 |
文字列 |
詳細 |
- 最小: 143トークン
- 平均: 178.76トークン
- 最大: 258トークン
|
- 最小: 141トークン
- 平均: 176.76トークン
- 最大: 256トークン
|
評価データセット
無名データセット
- サイズ: 5評価サンプル
- 列:
anchor
と positive
- 最初の5サンプルに基づくおおよその統計:
|
anchor |
positive |
タイプ |
文字列 |
文字列 |
詳細 |
- 最小: 167トークン
- 平均: 211.2トークン
- 最大: 272トークン
|
- 最小: 165トークン
- 平均: 209.2トークン
- 最大: 270トークン
|
トレーニングハイパーパラメータ
非デフォルトハイパーパラメータ
eval_strategy
: steps
per_device_train_batch_size
: 16
per_device_eval_batch_size
: 16
learning_rate
: 3e-06
max_steps
: 24
warmup_ratio
: 0.1
batch_sampler
: no_duplicates
トレーニングログ
Epoch |
Step |
トレーニング損失 |
loss |
6.6667 |
20 |
0.0651 |
0.0005 |
フレームワークバージョン
- Python: 3.12.8
- Sentence Transformers: 3.1.1
- Transformers: 4.45.2
- PyTorch: 2.2.2
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.20.3
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}