Arabic SBERT 100K
BERTに基づくアラビア語の文章埋め込みモデルで、意味的テキスト類似度計算などのタスクをサポートします。
ダウンロード数 770
リリース時間 : 7/26/2024
モデル概要
このモデルはaubmindlab/bert - base - arabertv02を微調整した文章変換器モデルで、アラビア語の文章や段落を768次元の稠密ベクトル空間にマッピングでき、意味的検索、テキスト分類などのタスクに適しています。
モデル特徴
アラビア語最適化
アラビア語のテキストに特化して最適化されており、アラビア語特有の言語特性をより適切に処理できます。
効率的なベクトル表現
テキストを768次元の稠密ベクトルに変換し、意味情報を保持しながら計算効率を維持します。
多タスクサポート
意味的類似度計算、意味的検索、テキスト分類などの複数の下流タスクをサポートします。
モデル能力
意味的テキスト類似度計算
意味的検索
复述マイニング
テキスト分類
テキストクラスタリング
使用事例
情報検索
アラビア語ドキュメント検索
クエリの意味に基づいて関連するアラビア語ドキュメントをマッチングします。
検索結果の関連性を向上させることができます。
コンテンツ分析
アラビア語ニュース分類
内容の類似度に基づいてアラビア語ニュースを分類します。
🚀 Arabic-SBERT-100K
このモデルは、sentence-transformers フレームワークに基づき、aubmindlab/bert-base-arabertv02 を微調整して作成されました。このモデルは、文章や段落を768次元の密ベクトル空間にマッピングすることができ、意味的な文章の類似度計算、意味検索、言い換えの挖掘、文章分類、クラスタリングなどのタスクに使用できます。このモデルは、akhooli/arabic-triplets-1m-curated-sims-len データセットから選択された100Kのサンプルで訓練されており、そのうち75Kが訓練用、25Kが検証用に使用されました。モデルは5エポック訓練され、最終的な訓練損失は0.133(MatryoshkaLossを使用)でした。
✨ 主な機能
sentence-transformers
フレームワークを微調整しており、良好な意味表現能力を持っています。- 文章や段落を768次元の密ベクトル空間にマッピングでき、様々な自然言語処理タスクに適しています。
- アラビア語のデータセットで訓練されているため、アラビア語の意味理解に優れた性能を発揮します。
📦 インストール
まず、sentence-transformers
ライブラリをインストールする必要があります。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
model = SentenceTransformer("sentence_transformers_model_id")
# 运行推理
sentences = [
'ما هو نوع الدهون الموجودة في الأفوكادو',
'حوالي 15 في المائة من الدهون في الأفوكادو مشبعة ، مع كل كوب واحد من الأفوكادو المفروم يحتوي على 3.2 جرام من الدهون المشبعة ، وهو ما يمثل 16 في المائة من DV البالغ 20 جرامًا. تحتوي الأفوكادو في الغالب على دهون أحادية غير مشبعة ، مع 67 في المائة من إجمالي الدهون ، أو 14.7 جرامًا لكل كوب مفروم ، ويتكون من هذا النوع من الدهون.',
'يمكن أن يؤدي ارتفاع مستوى الدهون الثلاثية ، وهي نوع من الدهون (الدهون) في الدم ، إلى زيادة خطر الإصابة بأمراض القلب ، ويمكن أن يؤدي توفير مستوى مرتفع من الدهون الثلاثية ، وهي نوع من الدهون (الدهون) في الدم ، إلى زيادة خطر الإصابة بأمراض القلب. مرض.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 ドキュメント
モデル詳細
モデルの説明
属性 | 詳細 |
---|---|
モデルタイプ | Sentence Transformer |
ベースモデル | aubmindlab/bert-base-arabertv02 |
最大シーケンス長 | 512トークン |
出力次元 | 768トークン |
類似度関数 | コサイン類似度 |
モデルのソース
- ドキュメント:Sentence Transformers Documentation
- リポジトリ:Sentence Transformers on GitHub
- Hugging Face:Sentence Transformers on Hugging Face
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
訓練詳細
訓練データセット
- 未命名データセット
- サイズ:75,000個の訓練サンプル
- 列:
anchor
、positive
、negative
- 最初の1000個のサンプルに基づく近似統計情報:
anchor positive negative タイプ 文字列 文字列 文字列 詳細 - 最小:4トークン
- 平均:12.88トークン
- 最大:58トークン
- 最小:4トークン
- 平均:13.74トークン
- 最大:126トークン
- 最小:4トークン
- 平均:13.38トークン
- 最大:146トークン
- サンプル:
anchor positive negative هل تشاجر (سي إس لويس) و (جي آر آر تولكين) ؟ إن كان الأمر كذلك، فما هو السبب؟
هل صحيح أن (سي إس لويس) و (تولكين) تشاجرا؟
ما هي أفضل الكتب للدراسة في الجامعة؟
ما هي اعراض فقر الدم؟
ما هي اعراض الانيميا؟
كيف احضر كيكة العسل؟
من ستصوت له، دونالد ترامب أم هيلاري كلينتون؟
هل تؤيدون دونالد ترامب أم هيلاري كلينتون؟ لماذا؟
كيف أتغلب على إدمان المواد الإباحية؟
- 損失関数:
MatryoshkaLoss
、パラメータは以下の通り:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768, 512, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
評価データセット
- 未命名データセット
- サイズ:25,000個の評価サンプル
- 列:
anchor
、positive
、negative
- 最初の1000個のサンプルに基づく近似統計情報:
anchor positive negative タイプ 文字列 文字列 文字列 詳細 - 最小:4トークン
- 平均:12.6トークン
- 最大:70トークン
- 最小:4トークン
- 平均:14.82トークン
- 最大:239トークン
- 最小:4トークン
- 平均:13.78トークン
- 最大:128トークン
- サンプル:
anchor positive negative نعم , نعم , أو رأيت " تشيما بارا ديسو "
نعم، أو "تشيما بارا ديسو" كانت تلك التي شاهدتها
أنا لم أرى "تشيما بارا ديسو".
رجل وامرأة يجلسان على الشاطئ بينما تغرب الشمس
هناك رجل وامرأة يجلسان على الشاطئ
إنهم يشاهدون شروق الشمس
كيف أسيطر على غضبي؟
ما هي أفضل طريقة للسيطرة على الغضب؟
كيف أعرف إن كانت زوجتي تخونني؟
- 損失関数:
MatryoshkaLoss
、パラメータは以下の通り:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768, 512, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
訓練ハイパーパラメータ
非デフォルトのハイパーパラメータ
eval_strategy
:ステップごとに評価per_device_train_batch_size
:16per_device_eval_batch_size
:16learning_rate
:2e-05num_train_epochs
:5warmup_ratio
:0.1fp16
:Truebatch_sampler
:重複なしのサンプル
すべてのハイパーパラメータ
クリックして展開
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falsebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
訓練ログ
エポック | ステップ | 訓練損失 | 損失 |
---|---|---|---|
0.2133 | 500 | 1.4163 | 0.3134 |
0.4266 | 1000 | 0.3306 | 0.1912 |
0.6399 | 1500 | 0.2263 | 0.1527 |
0.8532 | 2000 | 0.1818 | 0.1297 |
1.0666 | 2500 | 0.1658 | 0.1167 |
1.2799 | 3000 | 0.1139 | 0.1040 |
1.4932 | 3500 | 0.0808 | 0.1018 |
1.7065 | 4000 | 0.0692 | 0.0959 |
1.9198 | 4500 | 0.058 | 0.0958 |
2.1331 | 5000 | 0.0653 | 0.0882 |
2.3464 | 5500 | 0.0503 | 0.0912 |
2.5597 | 6000 | 0.0338 | 0.0970 |
2.7730 | 6500 | 0.0363 | 0.0906 |
2.9863 | 7000 | 0.0375 | 0.0856 |
3.1997 | 7500 | 0.0401 | 0.0879 |
3.4130 | 8000 | 0.031 | 0.0848 |
3.6263 | 8500 | 0.0255 | 0.0938 |
3.8396 | 9000 | 0.0239 | 0.0858 |
4.0529 | 9500 | 0.0305 | 0.0840 |
4.2662 | 10000 | 0.0281 | 0.0833 |
4.4795 | 10500 | 0.0174 | 0.0840 |
4.6928 | 11000 | 0.0216 | 0.0882 |
4.9061 | 11500 | 0.022 | 0.0866 |
フレームワークのバージョン
- Python: 3.10.13
- Sentence Transformers: 3.0.1
- Transformers: 4.42.3
- PyTorch: 2.1.2
- Accelerate: 0.32.1
- Datasets: 2.20.0
- Tokenizers: 0.19.1
📚 引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98