Intfloat Triplet V2
これはintfloat/multilingual-e5-smallから微調整されたsentence-transformersモデルで、文や段落を384次元の密なベクトル空間にマッピングし、意味的テキスト類似度や意味検索などのタスクをサポートします。
ダウンロード数 19
リリース時間 : 2/16/2025
モデル概要
このモデルはintfloat/multilingual-e5-smallを基に、all-nli-trデータセットでトレーニングされ、主にトルコ語の文類似度計算と特徴抽出に使用されます。
モデル特徴
多言語サポート
multilingual-e5-smallモデルに基づき、複数言語処理をサポート
高次元ベクトル空間
テキストを384次元の密なベクトル空間にマッピングし、深層意味特徴を捕捉
効率的なトレーニング
多重ネガティブランキング損失を使用して最適化し、482,091サンプルでトレーニング
モデル能力
意味的テキスト類似度計算
意味検索
言い換えマイニング
テキスト分類
テキストクラスタリング
使用事例
テキスト処理
類似文検索
ドキュメントライブラリで意味的に類似した文を検索
コサイン精度が0.928に達する
質問応答システム
ユーザーの質問とナレッジベースの回答をマッチング
🚀 intfloat/multilingual-e5-smallベースのSentenceTransformer
このモデルは、all-nli-trデータセットでsentence-transformersを使用し、intfloat/multilingual-e5-smallからファインチューニングされたものです。文章や段落を384次元の密ベクトル空間にマッピングし、意味的な文章類似度、意味検索、パラフレーズマイニング、文章分類、クラスタリングなどに使用できます。
✨ 主な機能
- 文章や段落を384次元の密ベクトル空間にマッピングすることができます。
- 意味的な文章類似度、意味検索、パラフレーズマイニング、文章分類、クラスタリングなどのタスクに使用できます。
📚 ドキュメント
モデルの詳細
モデル情報
属性 | 詳情 |
---|---|
モデルタイプ | Sentence Transformer |
ベースモデル | intfloat/multilingual-e5-small |
最大シーケンス長 | 512トークン |
出力次元数 | 384次元 |
類似度関数 | コサイン類似度 |
学習データセット | all-nli-tr |
言語 | tr |
モデルのソース
- ドキュメント: Sentence Transformers Documentation
- リポジトリ: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
モデルのアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
💻 使用例
基本的な使用法
まず、Sentence Transformersライブラリをインストールします。
pip install -U sentence-transformers
次に、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
# 🤗 Hubからダウンロード
model = SentenceTransformer("x1saint/intfloat-triplet-v2")
# 推論を実行
sentences = [
'Ve gerçekten, baba haklıydı, oğlu zaten her şeyi tecrübe etmişti, her şeyi denedi ve daha az ilgileniyordu.',
'Oğlu her şeye olan ilgisini kaybediyordu.',
'Baba oğlunun tecrübe için hala çok şey olduğunu biliyordu.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# 埋め込みベクトルの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
🔧 技術詳細
評価
指標
Triplet
- データセット:
all-nli-dev
- 評価方法:
TripletEvaluator
指標 | 値 |
---|---|
コサイン正解率 | 0.928 |
学習の詳細
学習データセット
all-nli-tr
- データセット: all-nli-tr at daeabfb
- サイズ: 482,091学習サンプル
- 列:
anchor
,positive
,negative
- 最初の1000サンプルに基づく近似統計:
| | anchor | positive | negative |
| ---- | ---- | ---- | ---- |
| タイプ | 文字列 | 文字列 | 文字列 |
| 詳細 |
- 最小: 5トークン
- 平均: 28.16トークン
- 最大: 151トークン
- 最小: 5トークン
- 平均: 15.14トークン
- 最大: 49トークン
- 最小: 4トークン
- 平均: 14.33トークン
- 最大: 55トークン
- サンプル:
| anchor | positive | negative |
| ---- | ---- | ---- |
|
Mevsim boyunca ve sanırım senin seviyendeyken onları bir sonraki seviyeye düşürürsün. Eğer ebeveyn takımını çağırmaya karar verirlerse Braves üçlü A'dan birini çağırmaya karar verirlerse çifte bir adam onun yerine geçmeye gider ve bekar bir adam gelir.
|Eğer insanlar hatırlarsa, bir sonraki seviyeye düşersin.
|Hiçbir şeyi hatırlamazlar.
| |Numaramızdan biri talimatlarınızı birazdan yerine getirecektir.
|Ekibimin bir üyesi emirlerinizi büyük bir hassasiyetle yerine getirecektir.
|Şu anda boş kimsek yok, bu yüzden sen de harekete geçmelisin.
| |Bunu nereden biliyorsun? Bütün bunlar yine onların bilgileri.
|Bu bilgi onlara ait.
|Hiçbir bilgileri yok.
| - 損失関数:
MultipleNegativesRankingLoss
パラメータ:
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
評価データセット
all-nli-tr
- データセット: all-nli-tr at daeabfb
- サイズ: 6,567評価サンプル
- 列:
anchor
,positive
,negative
- 最初の1000サンプルに基づく近似統計:
| | anchor | positive | negative |
| ---- | ---- | ---- | ---- |
| タイプ | 文字列 | 文字列 | 文字列 |
| 詳細 |
- 最小: 3トークン
- 平均: 26.66トークン
- 最大: 121トークン
- 最小: 5トークン
- 平均: 14.98トークン
- 最大: 49トークン
- 最小: 4トークン
- 平均: 14.4トークン
- 最大: 37トークン
- サンプル:
| anchor | positive | negative |
| ---- | ---- | ---- |
|
Bilemiyorum. Onunla ilgili karışık duygularım var. Bazen ondan hoşlanıyorum ama aynı zamanda birisinin onu dövmesini görmeyi seviyorum.
|Çoğunlukla ondan hoşlanıyorum, ama yine de birinin onu dövdüğünü görmekten zevk alıyorum.
|O benim favorim ve kimsenin onu yendiğini görmek istemiyorum.
| |Sen ve arkadaşların burada hoş karşılanmaz, Severn söyledi.
|Severn orada insanların hoş karşılanmadığını söyledi.
|Severn orada insanların her zaman hoş karşılanacağını söyledi.
| |Gecenin en aşağısı ne olduğundan emin değilim.
|Dün gece ne kadar soğuk oldu bilmiyorum.
|Dün gece hava 37 dereceydi.
| - 損失関数:
MultipleNegativesRankingLoss
パラメータ:
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
学習ハイパーパラメータ
非デフォルトのハイパーパラメータ
eval_strategy
: stepsper_device_train_batch_size
: 256per_device_eval_batch_size
: 256gradient_accumulation_steps
: 4num_train_epochs
: 10warmup_ratio
: 0.1bf16
: Truedataloader_num_workers
: 4
すべてのハイパーパラメータ
クリックして展開
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 256per_device_eval_batch_size
: 256per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 4eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 10max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 4dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
学習ログ
エポック | ステップ | 学習損失 | 検証損失 | all-nli-devコサイン正解率 |
---|---|---|---|---|
1.0616 | 500 | 6.0902 | 0.7763 | 0.9024 |
2.1231 | 1000 | 3.6464 | 0.6962 | 0.9156 |
3.1847 | 1500 | 3.1127 | 0.6679 | 0.9191 |
4.2463 | 2000 | 2.8153 | 0.6608 | 0.9233 |
5.3079 | 2500 | 2.5886 | 0.6506 | 0.9252 |
6.3694 | 3000 | 2.4437 | 0.6478 | 0.9252 |
7.4310 | 3500 | 2.3393 | 0.6456 | 0.9263 |
8.4926 | 4000 | 2.2521 | 0.6414 | 0.9284 |
9.5541 | 4500 | 2.1913 | 0.6397 | 0.9280 |
フレームワークのバージョン
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.48.3
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.3.0
- Tokenizers: 0.21.0
📄 ライセンス
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98