Word Order Jina
これはjina-embeddings-v2-base-enをファインチューニングした文変換モデルで、文の埋め込みベクトルを生成し意味的類似度を計算します。
ダウンロード数 37
リリース時間 : 12/3/2024
モデル概要
このモデルは文や段落を768次元の密なベクトル空間にマッピングでき、意味的テキスト類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのタスクに適しています。
モデル特徴
効率的な意味エンコーディング
文や段落を効率的に768次元の密なベクトルにエンコード可能
多重ネガティブサンプル訓練
多重ネガティブサンプルランキング損失を使用して訓練し、類似文を区別する能力を向上
混合データセット訓練
word_ordersとnegation_datasetの2つのデータセットを組み合わせて訓練し、モデルの理解能力を強化
モデル能力
文の類似度計算
テキスト埋め込みベクトルの生成
意味検索
テキスト分類
テキストクラスタリング
使用事例
情報検索
意味検索
クエリ文の意味に基づいて関連文書を検索(キーワードマッチングではなく)
検索結果の関連性と精度を向上
テキスト分析
テキストクラスタリング
意味的に類似した文書を自動的にグループ化
文書コレクション内のテーマ構造の発見を支援
🚀 jinaai/jina-embeddings-v2-base-enをベースとしたSentenceTransformer
このモデルは、sentence-transformersを使用して、jinaai/jina-embeddings-v2-base-en を word_orders と negation_dataset のデータセットでファインチューニングしたものです。文章や段落を768次元の密ベクトル空間にマッピングし、意味的な文章の類似性、意味検索、言い換えのマイニング、テキスト分類、クラスタリングなどに使用できます。
🚀 クイックスタート
このモデルは、文章や段落を768次元の密ベクトル空間にマッピングすることができ、様々な自然言語処理タスクに利用できます。以下のセクションでは、モデルの詳細、使用方法、トレーニングの詳細について説明します。
✨ 主な機能
- 文章や段落を768次元の密ベクトル空間にマッピングすることができます。
- 意味的な文章の類似性、意味検索、言い換えのマイニング、テキスト分類、クラスタリングなどに使用できます。
📦 インストール
まず、Sentence Transformersライブラリをインストールします。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
# 🤗 Hubからダウンロード
model = SentenceTransformer("bwang0911/word-order-jina")
# 推論を実行
sentences = [
'Paint preserves wood',
'Coating protects timber',
'timber coating protects',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 埋め込みベクトルの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 ドキュメント
モデルの詳細
モデルの説明
属性 | 详情 |
---|---|
モデルタイプ | Sentence Transformer |
ベースモデル | jinaai/jina-embeddings-v2-base-en |
最大シーケンス長 | 128トークン |
出力次元数 | 768次元 |
類似度関数 | コサイン類似度 |
トレーニングデータセット | word_orders、negation_dataset |
言語 | en |
モデルのソース
- ドキュメント: Sentence Transformers Documentation
- リポジトリ: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: JinaBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
🔧 技術詳細
トレーニングデータセット
word_orders
- データセット: word_orders at 99609ac
- サイズ: 1,002個のトレーニングサンプル
- 列:
anchor
、pos
、neg
- 最初の1000サンプルに基づく概算統計:
anchor pos neg タイプ string string string 詳細 - 最小: 5トークン
- 平均: 12.34トークン
- 最大: 32トークン
- 最小: 5トークン
- 平均: 12.1トークン
- 最大: 30トークン
- 最小: 5トークン
- 平均: 11.51トークン
- 最大: 24トークン
- サンプル:
anchor pos neg The river flows from the mountains to the sea
Water travels from mountain peaks to ocean
The river flows from the sea to the mountains
Train departs London for Paris
Railway journey from London heading to Paris
Train departs Paris for London
Cargo ship sails from Shanghai to Singapore
Maritime route Shanghai to Singapore
Cargo ship sails from Singapore to Shanghai
- 損失関数:
MultipleNegativesRankingLoss
以下のパラメータで:{ "scale": 20, "similarity_fct": "cos_sim" }
negation_dataset
- データセット: negation_dataset at cd02256
- サイズ: 10,000個のトレーニングサンプル
- 列:
anchor
、entailment
、negative
- 最初の1000サンプルに基づく概算統計:
anchor entailment negative タイプ string string string 詳細 - 最小: 6トークン
- 平均: 16.48トークン
- 最大: 44トークン
- 最小: 4トークン
- 平均: 9.63トークン
- 最大: 31トークン
- 最小: 5トークン
- 平均: 10.46トークン
- 最大: 32トークン
- サンプル:
anchor entailment negative Two young girls are playing outside in a non-urban environment.
Two girls are playing outside.
Two girls are not playing outside.
A man with a red shirt is watching another man who is standing on top of a attached cart filled to the top.
A man is standing on top of a cart.
A man is not standing on top of a cart.
A man in a blue shirt driving a Segway type vehicle.
A person is riding a motorized vehicle.
A person is not riding a motorized vehicle.
- 損失関数:
MultipleNegativesRankingLoss
以下のパラメータで:{ "scale": 20, "similarity_fct": "cos_sim" }
トレーニングハイパーパラメータ
非デフォルトのハイパーパラメータ
per_device_train_batch_size
: 128warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
すべてのハイパーパラメータ
クリックして展開
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 128per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 3max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
トレーニングログ
エポック | ステップ | トレーニング損失 |
---|---|---|
0.1149 | 10 | 2.0411 |
0.2299 | 20 | 1.5167 |
0.3448 | 30 | 0.64 |
0.4598 | 40 | 0.6058 |
0.5747 | 50 | 0.6042 |
0.6897 | 60 | 0.4193 |
0.8046 | 70 | 0.5208 |
0.9195 | 80 | 0.4864 |
1.0345 | 90 | 0.4145 |
1.1494 | 100 | 0.69 |
1.2644 | 110 | 0.9602 |
1.3793 | 120 | 0.2539 |
1.4943 | 130 | 0.2558 |
1.6092 | 140 | 0.2769 |
1.7241 | 150 | 0.2154 |
1.8391 | 160 | 0.293 |
1.9540 | 170 | 0.2598 |
2.0690 | 180 | 0.2113 |
2.1839 | 190 | 0.9366 |
2.2989 | 200 | 0.2121 |
2.4138 | 210 | 0.1486 |
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98