🚀 SimCSE训练版本的chcaa/dfm-encoder-large-v1
这是使用SimCSE训练的chcaa/dfm-encoder-large-v1的一个版本。它是斯堪的纳维亚嵌入基准的一部分,用于为SimCSE建立一个简单的基线。
🚀 快速开始
本项目是基于SimCSE训练的模型版本,不过需要注意的是,我们不推荐使用此模型,建议用户查看SEB上当前的最佳模型,或者参考丹麦基础模型团队的推荐。
📄 许可证
本项目采用MIT许可证。
📦 数据集
🔖 标签
🔧 技术细节
超参数
使用SimCSE实现进行训练,具体参数如下:
CUDA_VISIBLE_DEVICES=0 python train.py \
--train_file data/dfm_paragraphs.txt \ # 从丹麦语千兆语料库中提取的段落
--model_name_or_path chcaa/dfm-encoder-large-v1 \
--num_train_epochs 1 \
--per_device_train_batch_size 128 \
--learning_rate 1e-5 \
--max_seq_length 32 \
--evaluation_strategy steps \
--metric_for_best_model stsb_spearman \
--load_best_model_at_end \
--pooler_type cls \
--mlp_only_train \
--do_mlm \
--overwrite_output_dir \
--temp 0.05 \
--do_train \
--fp16
引用信息
若要引用此工作,请参考以下文章:
Enevoldsen, K., Kardos, M., Muennighoff, N., & Nielbo, K. (2024). The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding. https://openreview.net/forum?id=pJl_i7HIA72
或者使用以下BibTeX:
@article{enevoldsenScandinavianEmbeddingBenchmarks2024,
title = {The {Scandinavian} {Embedding} {Benchmarks}: {Comprehensive} {Assessment} of {Multilingual} and {Monolingual} {Text} {Embedding}},
shorttitle = {The {Scandinavian} {Embedding} {Benchmarks}},
url = {https://openreview.net/forum?id=pJl_i7HIA72},
language = {en},
urldate = {2024-04-12},
author = {Enevoldsen, Kenneth and Kardos, Márton and Muennighoff, Niklas and Nielbo, Kristoffer},
month = feb,
year = {2024},
}
⚠️ 重要提示
我们不推荐使用此模型,建议用户查看SEB上当前的最佳模型,或者参考丹麦基础模型团队的推荐。