🚀 CrisisTransformers
CrisisTransformers 是一系列預訓練語言模型和句子編碼器,旨在處理與危機相關的社交媒體文本。它基於大規模危機相關推文語料庫進行訓練,在多個危機特定數據集上表現出色,為危機相關文本的分類和句子編碼任務提供了強大的支持。
🚀 快速開始
CrisisTransformers 是在論文 "CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts" 和 "Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts" 中提出的一系列預訓練語言模型和句子編碼器。這些模型基於 RoBERTa 預訓練流程,在超過 150 億個單詞標記的大規模語料庫上進行訓練,這些語料來自與 30 多種危機事件(如疾病爆發、自然災害、衝突等)相關的推文。更多詳細信息請參考 相關論文。
CrisisTransformers 在 18 個公開的危機特定數據集上與強大的基線模型進行了評估。我們的預訓練模型在所有 18 個數據集的分類任務中均優於基線模型,並且我們表現最佳的單語言句子編碼器在句子編碼任務中比現有最先進的模型高出 17% 以上。多語言句子編碼器(支持 50 多種語言;詳見 相關論文)旨在近似最佳單語言句子編碼器的嵌入空間。
✨ 主要特性
- 高性能:在 18 個公開的危機特定數據集上的分類任務中,預訓練模型優於基線模型;最佳單語言句子編碼器在句子編碼任務中比現有最先進的模型高出 17% 以上。
- 多語言支持:多語言句子編碼器支持 50 多種語言。
- 多種模型選擇:提供 8 個預訓練模型和 3 個句子編碼器(1 個單語言和 2 個多語言)。
📚 詳細文檔
使用場景
CrisisTransformers 有 8 個預訓練模型、1 個單語言和 2 個多語言句子編碼器。預訓練模型應像 BERT 和 RoBERTa 一樣針對下游任務進行微調。句子編碼器可以像 Sentence-Transformers 一樣直接使用,用於句子編碼,以促進語義搜索、聚類、主題建模等任務。
模型和命名約定
- CT-M1 模型從頭開始訓練,最多訓練 40 個 epoch。
- CT-M2 模型使用預訓練的 RoBERTa 權重初始化,訓練最多 20 個 epoch。
- CT-M3 模型使用預訓練的 BERTweet 權重初始化,訓練最多 20 個 epoch。
- OneLook 表示訓練 1 個 epoch 後的檢查點。
- BestLoss 表示訓練過程中損失最低的檢查點。
- Complete 表示完成所有 epoch 後的檢查點。
- SE 表示句子編碼器。
預訓練模型
句子編碼器
多語言句子編碼器支持的語言
多語言句子編碼器支持以下語言:阿爾巴尼亞語、阿拉伯語、亞美尼亞語、保加利亞語、加泰羅尼亞語、中文(簡體)、中文(繁體)、克羅地亞語、捷克語、丹麥語、荷蘭語、愛沙尼亞語、芬蘭語、法語、法語(加拿大)、加利西亞語、格魯吉亞語、德語、希臘語、古吉拉特語、希伯來語、印地語、匈牙利語、印尼語、意大利語、日語、韓語、庫爾德語(索拉尼)、拉脫維亞語、立陶宛語、馬其頓語、馬來語、馬拉地語、蒙古語、緬甸語、挪威語、波斯語、波蘭語、葡萄牙語、葡萄牙語(巴西)、羅馬尼亞語、俄語、塞爾維亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語、泰語、土耳其語、烏克蘭語、烏爾都語和越南語。
📄 許可證
引用
如果您使用 CrisisTransformers 和單語言句子編碼器,請引用以下論文:
@article{lamsal2023crisistransformers,
title={CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts},
author={Rabindra Lamsal and
Maria Rodriguez Read and
Shanika Karunasekera},
journal={Knowledge-Based Systems},
pages={111916},
year={2024},
publisher={Elsevier}
}
如果您使用多語言句子編碼器,請引用以下論文:
@article{lamsal2024semantically,
title={Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts},
author={Rabindra Lamsal and
Maria Rodriguez Read and
Shanika Karunasekera},
year={2024},
eprint={2403.16614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}