🚀 SimCSE訓練版本的chcaa/dfm-encoder-large-v1
這是使用SimCSE訓練的chcaa/dfm-encoder-large-v1的一個版本。它是斯堪的納維亞嵌入基準的一部分,用於為SimCSE建立一個簡單的基線。
🚀 快速開始
本項目是基於SimCSE訓練的模型版本,不過需要注意的是,我們不推薦使用此模型,建議用戶查看SEB上當前的最佳模型,或者參考丹麥基礎模型團隊的推薦。
📄 許可證
本項目採用MIT許可證。
📦 數據集
🔖 標籤
🔧 技術細節
超參數
使用SimCSE實現進行訓練,具體參數如下:
CUDA_VISIBLE_DEVICES=0 python train.py \
--train_file data/dfm_paragraphs.txt \ # 從丹麥語千兆語料庫中提取的段落
--model_name_or_path chcaa/dfm-encoder-large-v1 \
--num_train_epochs 1 \
--per_device_train_batch_size 128 \
--learning_rate 1e-5 \
--max_seq_length 32 \
--evaluation_strategy steps \
--metric_for_best_model stsb_spearman \
--load_best_model_at_end \
--pooler_type cls \
--mlp_only_train \
--do_mlm \
--overwrite_output_dir \
--temp 0.05 \
--do_train \
--fp16
引用信息
若要引用此工作,請參考以下文章:
Enevoldsen, K., Kardos, M., Muennighoff, N., & Nielbo, K. (2024). The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding. https://openreview.net/forum?id=pJl_i7HIA72
或者使用以下BibTeX:
@article{enevoldsenScandinavianEmbeddingBenchmarks2024,
title = {The {Scandinavian} {Embedding} {Benchmarks}: {Comprehensive} {Assessment} of {Multilingual} and {Monolingual} {Text} {Embedding}},
shorttitle = {The {Scandinavian} {Embedding} {Benchmarks}},
url = {https://openreview.net/forum?id=pJl_i7HIA72},
language = {en},
urldate = {2024-04-12},
author = {Enevoldsen, Kenneth and Kardos, Márton and Muennighoff, Niklas and Nielbo, Kristoffer},
month = feb,
year = {2024},
}
⚠️ 重要提示
我們不推薦使用此模型,建議用戶查看SEB上當前的最佳模型,或者參考丹麥基礎模型團隊的推薦。