snowflake-arctic-embed-l-v2.0-ko開源模型 - 實現語義文本比對與搜索功能！

Home

Snowflake Arctic Embed L V2.0 Ko

Developed by dragonkue

這是一個從Snowflake/snowflake-arctic-embed-l-v2.0微調而來的句子轉換器模型，訓練數據為聚類數據集。它將句子和段落映射到一個1024維的密集向量空間，可用於語義文本相似度和語義搜索。

文本嵌入

Safetensors

Supports Multiple LanguagesOpen Source License:Apache-2.0 #韓英雙語檢索 #1024維高精度向量 #語義相似度計算

Downloads 4,964

Release Time : 3/7/2025

Model Overview

該模型進一步使用韓語數據進行了訓練，以提升其在韓語檢索任務中的表現。這是一個強大的模型，在多個檢索基準測試中達到了最先進的性能(SOTA)。

Model Features

多語言支持

特別針對韓語和英語進行了優化，提升了在韓語檢索任務中的表現。

高性能

在多個檢索基準測試中達到了最先進的性能(SOTA)。

密集向量空間映射

將句子和段落映射到一個1024維的密集向量空間，適用於語義文本相似度和語義搜索。

Model Capabilities

語義文本相似度計算

語義搜索

多語言文本嵌入

Use Cases

信息檢索

韓語文檔檢索

在韓語文檔庫中進行高效的語義搜索。

在韓語檢索任務中表現優異。

文本相似度

句子相似度計算

計算兩個句子之間的語義相似度。

適用於多語言環境，特別是韓語和英語。

🚀 基於Snowflake/snowflake-arctic-embed-l-v2.0的句子轉換器

這是一個基於 sentence-transformers 的模型，它在聚類數據集上對 Snowflake/snowflake-arctic-embed-l-v2.0 進行了微調。該模型可以將句子和段落映射到一個1024維的密集向量空間，可用於語義文本相似度計算和語義搜索。

Snowflake/snowflake-arctic-embed-l-v2.0 模型進一步使用韓語數據進行了訓練，以提高其在 韓語檢索任務 中的性能。它是一個強大的模型，在多個檢索基準測試中達到了 最先進（SOTA）的性能。

模型圖片

🚀 快速開始

本模型可以將句子和段落映射到1024維的密集向量空間，可用於語義文本相似度計算和語義搜索。

✨ 主要特性

基於 Snowflake/snowflake-arctic-embed-l-v2.0 微調，在聚類數據集上訓練。
支持韓語和英語，在韓語檢索任務中表現出色。
可將句子和段落映射到1024維的密集向量空間，用於語義文本相似度計算和語義搜索。
在多個檢索基準測試中達到了最先進（SOTA）的性能。

📦 安裝指南

首先，你需要安裝 sentence-transformers 庫和 xformers 庫：

pip install -U sentence-transformers
pip install xformers

💻 使用示例

基礎用法

使用 sentence-transformers 庫加載模型並進行推理：

from sentence_transformers import SentenceTransformer

# 加載模型
# 半精度推理時請使用bf16
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
model = SentenceTransformer(model_name)

# 定義查詢和文檔
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']

# 計算嵌入：使用 `prompt_name="query"` 對查詢進行編碼！
query_embeddings = model.encode(queries, prompt_name="query") 
document_embeddings = model.encode(documents)

# 計算餘弦相似度分數
scores = model.similarity(query_embeddings, document_embeddings)

# 輸出結果
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

高級用法

使用 transformers 包加載模型並進行推理：

import torch
from transformers import AutoModel, AutoTokenizer

# 加載模型
# 半精度推理時請使用bf16
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
model.eval()

# 定義查詢和文檔
query_prefix = 'query: '
queries  = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)

documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)

# 計算令牌嵌入
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 歸一化嵌入
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))

for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 輸出段落和分數
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	句子轉換器
基礎模型	Snowflake/snowflake-arctic-embed-l-v2.0
最大序列長度	8192個令牌
輸出維度	1024維
相似度函數	餘弦相似度
訓練數據集	AI Hub數據集（包括行政文檔機器閱讀理解、新聞文章機器閱讀理解等多個子數據集）
語言	韓語、英語

模型來源

文檔：Sentence Transformers Documentation
倉庫：Sentence Transformers on GitHub
Hugging Face：Sentence Transformers on Hugging Face

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

評估

評估參考了KURE GitHub倉庫（https://github.com/nlpai-lab/KURE）。
在 MTEB 中註冊的所有 韓語檢索基準測試 上進行了評估。

韓語檢索基準測試

Ko-StrategyQA：一個韓語 開放域問答多跳檢索數據集，從StrategyQA翻譯而來。
AutoRAGRetrieval：一個 韓語文檔檢索數據集，通過解析五個領域（金融、公共、醫療、法律和商業）的PDF構建。
MIRACLRetrieval：一個基於維基百科的 韓語文檔檢索數據集。
PublicHealthQA：一個專注於 醫療和公共衛生領域 的韓語 檢索數據集。
BelebeleRetrieval：一個基於FLORES-200的 韓語文檔檢索數據集。
MrTidyRetrieval：一個基於維基百科的 韓語文檔檢索數據集。
MultiLongDocRetrieval：一個涵蓋多個領域的韓語 長文檔檢索數據集。
XPQARetrieval：一個 跨領域韓語文檔檢索數據集。

指標

標準指標：NDCG@10

信息檢索

模型	MrTidyRetrieval	MIRACLRetrieval	XPQARetrieval	BelebeleRetrieval	PublicHealthQA	AutoRAGRetrieval	Ko-StrategyQA	平均
dragonkue/snowflake-arctic-embed-l-v2.0-ko	0.57121	0.66846	0.4436	0.95177	0.83374	0.90927	0.80498	0.740433
dragonkue/BGE-m3-ko	0.60992	0.68331	0.38131	0.95027	0.81545	0.87379	0.7959	0.729993
nlpai-lab/KURE-v1	0.59092	0.68157	0.38158	0.95019	0.81925	0.87076	0.7999	0.727739
BAAI/bge-m3	0.64708	0.70146	0.36075	0.93164	0.80412	0.83008	0.79405	0.724169
Snowflake/snowflake-arctic-embed-l-v2.0	0.59071	0.66077	0.43018	0.9271	0.81679	0.83863	0.80455	0.724104
intfloat/multilingual-e5-large	0.64211	0.66486	0.3571	0.94499	0.82534	0.81337	0.80348	0.721607
nlpai-lab/KoE5	0.58411	0.62347	0.35086	0.94251	0.83507	0.84339	0.80008	0.711356
BAAI/bge-multilingual-gemma2	0.47521	0.70315	0.37446	0.95001	0.87102	0.76535	0.79072	0.704274
jinaai/jina-embeddings-v3	0.55759	0.63716	0.41272	0.91203	0.83059	0.76104	0.79807	0.701314
intfloat/multilingual-e5-large-instruct	0.52877	0.59914	0.39712	0.936	0.84967	0.77996	0.79793	0.69837
nomic-ai/nomic-embed-text-v2-moe	0.53766	0.65913	0.36871	0.93636	0.78448	0.80682	0.76325	0.693773
intfloat/multilingual-e5-base	0.58082	0.6227	0.3607	0.92868	0.77203	0.79752	0.76355	0.689429
intfloat/e5-mistral-7b-instruct	0.52444	0.58709	0.39159	0.92403	0.88733	0.67849	0.79317	0.683734
Alibaba-NLP/gte-Qwen2-7B-instruct	0.46571	0.53375	0.37866	0.94808	0.85844	0.76682	0.8108	0.680323
Alibaba-NLP/gte-multilingual-base	0.56464	0.62697	0.30702	0.8796	0.74584	0.77108	0.75121	0.663766
openai/text-embedding-3-large	0.44728	0.56248	0.37423	0.89451	0.85617	0.76466	0.73634	0.662239
upskyy/bge-m3-korean	0.55011	0.59892	0.31695	0.8731	0.77559	0.72946	0.75277	0.6567
Salesforce/SFR-Embedding-2_R	0.40347	0.55798	0.37371	0.91747	0.8605	0.70782	0.77042	0.65591
ibm-granite/granite-embedding-278m-multilingual	nan	0.59216	0.23058	0.83231	0.77668	0.70226	0.71762	0.641935
jhgan/ko-sroberta-multitask	0.29475	0.36698	0.27961	0.81636	0.69212	0.58332	0.65097	0.526301

基準測試之外的能力

支持短語查詢：除了完整句子查詢外，還支持基於短語的查詢。例如："What products does Samsung sell?" 或 "Samsung's products"。
處理多樣化查詢格式：經過訓練，能夠處理各種查詢格式，無論措辭如何變化。例如："Tell me about Samsung."、"I'm curious about Samsung."、"What is Samsung?"。
優化Markdown表格搜索：針對Markdown表格搜索進行了優化，當文檔中存在表格時，可以檢索嵌入在表格中的答案。
高效聚類：無需硬負樣本即可進行高效聚類。在同一批次內對樣本進行聚類，通過將 Snowflake/snowflake-arctic-embed-l-v2.0 模型的嵌入截斷為256維來進行高效的聚類嵌入形成。聚類方法受到以下論文的啟發：
- Embedding And Clustering Your Data Can Improve Contrastive Pretraining
- CONTEXTUAL DOCUMENT EMBEDDINGS
跨領域表現出色：在不同領域表現出色。《Arctic-Embed 2.0: Multilingual Retrieval Without Compromise》論文指出：“雖然像mE5、mGTE和BGE-M3這樣的模型在MIRACL上表現出色，但它們在CLEF上的性能明顯弱於我們的模型和閉源產品，這表明它們可能過度擬合了MIRACL或其基於維基百科的領域。” 根據經驗，Snowflake/snowflake-arctic-embed-l-v2.0 在不同領域始終優於 BGE-M3。

偏差、風險和限制

為了防止過高的GPU使用成本，模型在訓練時的最大序列長度為 1300 個令牌。因此，在像 MultiLongDocRetrieval (MLDR) 這樣的基準測試中，其性能可能會下降。

之前的模型 BGE-m3-ko 在訓練時的令牌長度為 1024，這限制了它在MLDR基準測試中的性能。

對於 snowflake-arctic-embed-l-v2.0-ko，如果文檔長度超過 1300 個令牌或約 2500 個字符，建議考慮以下模型：

模型	MultiLongDocRetrieval
Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base	0.48402
nlpai-lab/KURE-v1/nlpai-lab_KURE-v1	0.47528
dragonkue/snowflake-arctic-embed-l-v2.0-ko	0.4459
BAAI/bge-m3/BAAI_bge-m3	0.43011
Snowflake/snowflake-arctic-embed-l-v2.0	0.40401
dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko	0.40135
openai/text-embedding-3-large	0.31108
BAAI/bge-multilingual-gemma2	0.31021
nlpai-lab/KoE5	0.30869
jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3	0.30512
Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct	0.30313
intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct	0.27973
nomic-ai/nomic-embed-text-v2-moe	0.27135
intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct	0.2583
intfloat/multilingual-e5-large/intfloat__multilingual-e5-large	0.24596
Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R	0.24346
intfloat/multilingual-e5-base/intfloat__multilingual-e5-base	0.23766
upskyy/bge-m3-korean/upskyy__bge-m3-korean	0.21968
ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual	0.20781
jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask	0.20416

訓練詳情

損失函數：CachedGISTEmbedLoss，使用以下參數：

訓練超參數

非默認超參數

eval_strategy: steps
per_device_train_batch_size: 20000
per_device_eval_batch_size: 4096
learning_rate: 2e-05
num_train_epochs: 2
lr_scheduler_type: warmup_stable_decay
lr_scheduler_kwargs: {'num_decay_steps': 160}
warmup_ratio: 0.05
bf16: True
batch_sampler: no_duplicates

所有超參數

點擊展開

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 10000
per_device_eval_batch_size: 4096
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: warmup_stable_decay
lr_scheduler_kwargs: {'num_decay_steps': 160}
warmup_ratio: 0.05
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

框架版本

Python: 3.10.12
Sentence Transformers: 3.4.1
Transformers: 4.49.0
PyTorch: 2.6.0+cu124
Accelerate: 1.4.0
Datasets: 3.3.2
Tokenizers: 0.21.0

🔧 技術細節

模型基於 Snowflake/snowflake-arctic-embed-l-v2.0 微調，在聚類數據集上訓練。
使用 CachedGISTEmbedLoss 損失函數進行訓練。
訓練時使用了特定的超參數，如 eval_strategy、per_device_train_batch_size 等。
模型架構包括 Transformer、Pooling 和 Normalize 層。
支持韓語和英語，在韓語檢索任務中表現出色。
在多個檢索基準測試中達到了最先進（SOTA）的性能。

📄 許可證

Arctic採用 Apache 2.0 許可證。發佈的模型可以免費用於商業目的。

📚 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084"
}

KURE

@misc{KURE,
  publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
  year = {2024},
  url = {https://github.com/nlpai-lab/KURE}
}

Arctic-Embed 2.0

@article{yu2024arcticembed,
  title = "Arctic-Embed 2.0: Multilingual Retrieval Without Compromise",
  author = "Puxuan Yu, Luke Merrick, Gaurav Nuti, Daniel Campos",
  journal = "arXiv preprint arXiv:2412.04506",
  year = "2024",
  url = "https://arxiv.org/abs/2412.04506"
}

Embedding And Clustering Your Data Can Improve Contrastive Pretraining

@article{merrick2024embedding,
  title = "Embedding And Clustering Your Data Can Improve Contrastive Pretraining",
  author = "Luke Merrick",
  journal = "arXiv preprint arXiv:2407.18887",
  year = "2024",
  url = "https://arxiv.org/abs/2407.18887"
}

Contextual Document Embeddings

@article{morris2024contextual,
  title = "Contextual Document Embeddings",
  author = "John X. Morris, Alexander M. Rush",
  journal = "arXiv preprint arXiv:2410.02525",
  year = "2024",
  url = "https://arxiv.org/abs/2410.02525"
}