🚀 CrisisTransformers
CrisisTransformers 是一系列预训练语言模型和句子编码器,旨在处理与危机相关的社交媒体文本。它基于大规模危机相关推文语料库进行训练,在多个危机特定数据集上表现出色,为危机相关文本的分类和句子编码任务提供了强大的支持。
🚀 快速开始
CrisisTransformers 是在论文 "CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts" 和 "Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts" 中提出的一系列预训练语言模型和句子编码器。这些模型基于 RoBERTa 预训练流程,在超过 150 亿个单词标记的大规模语料库上进行训练,这些语料来自与 30 多种危机事件(如疾病爆发、自然灾害、冲突等)相关的推文。更多详细信息请参考 相关论文。
CrisisTransformers 在 18 个公开的危机特定数据集上与强大的基线模型进行了评估。我们的预训练模型在所有 18 个数据集的分类任务中均优于基线模型,并且我们表现最佳的单语言句子编码器在句子编码任务中比现有最先进的模型高出 17% 以上。多语言句子编码器(支持 50 多种语言;详见 相关论文)旨在近似最佳单语言句子编码器的嵌入空间。
✨ 主要特性
- 高性能:在 18 个公开的危机特定数据集上的分类任务中,预训练模型优于基线模型;最佳单语言句子编码器在句子编码任务中比现有最先进的模型高出 17% 以上。
- 多语言支持:多语言句子编码器支持 50 多种语言。
- 多种模型选择:提供 8 个预训练模型和 3 个句子编码器(1 个单语言和 2 个多语言)。
📚 详细文档
使用场景
CrisisTransformers 有 8 个预训练模型、1 个单语言和 2 个多语言句子编码器。预训练模型应像 BERT 和 RoBERTa 一样针对下游任务进行微调。句子编码器可以像 Sentence-Transformers 一样直接使用,用于句子编码,以促进语义搜索、聚类、主题建模等任务。
模型和命名约定
- CT-M1 模型从头开始训练,最多训练 40 个 epoch。
- CT-M2 模型使用预训练的 RoBERTa 权重初始化,训练最多 20 个 epoch。
- CT-M3 模型使用预训练的 BERTweet 权重初始化,训练最多 20 个 epoch。
- OneLook 表示训练 1 个 epoch 后的检查点。
- BestLoss 表示训练过程中损失最低的检查点。
- Complete 表示完成所有 epoch 后的检查点。
- SE 表示句子编码器。
预训练模型
句子编码器
多语言句子编码器支持的语言
多语言句子编码器支持以下语言:阿尔巴尼亚语、阿拉伯语、亚美尼亚语、保加利亚语、加泰罗尼亚语、中文(简体)、中文(繁体)、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、法语、法语(加拿大)、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、希伯来语、印地语、匈牙利语、印尼语、意大利语、日语、韩语、库尔德语(索拉尼)、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、蒙古语、缅甸语、挪威语、波斯语、波兰语、葡萄牙语、葡萄牙语(巴西)、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语、乌尔都语和越南语。
📄 许可证
引用
如果您使用 CrisisTransformers 和单语言句子编码器,请引用以下论文:
@article{lamsal2023crisistransformers,
title={CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts},
author={Rabindra Lamsal and
Maria Rodriguez Read and
Shanika Karunasekera},
journal={Knowledge-Based Systems},
pages={111916},
year={2024},
publisher={Elsevier}
}
如果您使用多语言句子编码器,请引用以下论文:
@article{lamsal2024semantically,
title={Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts},
author={Rabindra Lamsal and
Maria Rodriguez Read and
Shanika Karunasekera},
year={2024},
eprint={2403.16614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}