🚀 EMMA-500:提升大語言模型的大規模多語言適配能力
EMMA-500 是一款先進的多語言語言模型,旨在通過在 Llama 2 7B 架構上進行持續預訓練,改善語言表示,尤其針對低資源語言。該模型利用了 MaLA 語料庫,該語料庫涵蓋 500 多種語言和 740 億個標記,使 EMMA-500 在常識推理、機器翻譯、開放式生成和文本分類等多語言任務中表現出色。
EMMA-500 在各種多語言場景中超越了其他基於 Llama 2 的模型,同時在特定任務中保持了穩健性。
🚀 快速開始
你可以使用 EMMA-500 進行多語言文本生成。以下是使用該模型生成文本的示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "MaLA-LM/emma-500-llama2-7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
input_text = "Once upon a time"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 架構先進:基於 Llama 2 7B 構建,通過持續預訓練增強語言適配能力。
- 語言支持廣泛:支持 546 種語言,每種語言都有大量的訓練數據(超過 10 萬個標記)。
- 數據多樣:文本數據來自代碼、書籍、指令數據等多個領域。
- 任務能力強:擅長常識推理、機器翻譯、文本分類、自然語言推理、代碼生成和開放式生成等關鍵任務。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於 Llama 2 7B 架構,通過持續預訓練增強語言適配能力 |
支持語言 |
546 種語言,每種語言有超過 10 萬個標記的訓練數據 |
數據混合 |
來自代碼、書籍、指令數據等多個領域的多樣化文本 |
關鍵任務 |
常識推理、機器翻譯、文本分類、自然語言推理、代碼生成和開放式生成 |
數據訪問
模型性能
EMMA-500 在多個基準測試和任務中進行了評估,表現如下:
- 內在評估中負對數似然最低。
- 常識推理、機器翻譯 和 開放式生成 任務有顯著改進。
- 在 文本分類 和 自然語言推理 方面超越了所有基於 Llama 2 的模型。
- 代碼生成 和 機器閱讀理解 (MRC) 性能有所提升。
不過,在低資源語言方面仍存在挑戰,模型的 Self-BLEU 分數較高,表明輸出多樣性有所降低。
📄 許可證
本模型使用 llama2 許可證。
📖 引用
@article{ji2024emma500enhancingmassivelymultilingual,
title={{EMMA}-500: Enhancing Massively Multilingual Adaptation of Large Language Models},
author={Shaoxiong Ji and Zihao Li and Indraneil Paul and Jaakko Paavola and Peiqin Lin and Pinzhen Chen and Dayyán O'Brien and Hengyu Luo and Hinrich Schütze and Jörg Tiedemann and Barry Haddow},
year={2024},
journal={arXiv preprint 2409.17892},
url={https://arxiv.org/abs/2409.17892},
}
🙏 致謝
我們感謝語言社區和貢獻者,他們幫助收集、清理和驗證了 MaLA 語料庫中使用的多樣化數據。他們的努力對於支持人工智能研究中的語言多樣性至關重要。
這項工作由 Helsinki-NLP 的研究人員與達姆施塔特工業大學、愛丁堡大學和慕尼黑大學的合作伙伴共同完成。該研究由 HPLT 和 UTTER 資助。