🚀 EMMA-500:提升大语言模型的大规模多语言适配能力
EMMA-500 是一款先进的多语言语言模型,旨在通过在 Llama 2 7B 架构上进行持续预训练,改善语言表示,尤其针对低资源语言。该模型利用了 MaLA 语料库,该语料库涵盖 500 多种语言和 740 亿个标记,使 EMMA-500 在常识推理、机器翻译、开放式生成和文本分类等多语言任务中表现出色。
EMMA-500 在各种多语言场景中超越了其他基于 Llama 2 的模型,同时在特定任务中保持了稳健性。
🚀 快速开始
你可以使用 EMMA-500 进行多语言文本生成。以下是使用该模型生成文本的示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "MaLA-LM/emma-500-llama2-7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
input_text = "Once upon a time"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 架构先进:基于 Llama 2 7B 构建,通过持续预训练增强语言适配能力。
- 语言支持广泛:支持 546 种语言,每种语言都有大量的训练数据(超过 10 万个标记)。
- 数据多样:文本数据来自代码、书籍、指令数据等多个领域。
- 任务能力强:擅长常识推理、机器翻译、文本分类、自然语言推理、代码生成和开放式生成等关键任务。
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于 Llama 2 7B 架构,通过持续预训练增强语言适配能力 |
支持语言 |
546 种语言,每种语言有超过 10 万个标记的训练数据 |
数据混合 |
来自代码、书籍、指令数据等多个领域的多样化文本 |
关键任务 |
常识推理、机器翻译、文本分类、自然语言推理、代码生成和开放式生成 |
数据访问
模型性能
EMMA-500 在多个基准测试和任务中进行了评估,表现如下:
- 内在评估中负对数似然最低。
- 常识推理、机器翻译 和 开放式生成 任务有显著改进。
- 在 文本分类 和 自然语言推理 方面超越了所有基于 Llama 2 的模型。
- 代码生成 和 机器阅读理解 (MRC) 性能有所提升。
不过,在低资源语言方面仍存在挑战,模型的 Self-BLEU 分数较高,表明输出多样性有所降低。
📄 许可证
本模型使用 llama2 许可证。
📖 引用
@article{ji2024emma500enhancingmassivelymultilingual,
title={{EMMA}-500: Enhancing Massively Multilingual Adaptation of Large Language Models},
author={Shaoxiong Ji and Zihao Li and Indraneil Paul and Jaakko Paavola and Peiqin Lin and Pinzhen Chen and Dayyán O'Brien and Hengyu Luo and Hinrich Schütze and Jörg Tiedemann and Barry Haddow},
year={2024},
journal={arXiv preprint 2409.17892},
url={https://arxiv.org/abs/2409.17892},
}
🙏 致谢
我们感谢语言社区和贡献者,他们帮助收集、清理和验证了 MaLA 语料库中使用的多样化数据。他们的努力对于支持人工智能研究中的语言多样性至关重要。
这项工作由 Helsinki-NLP 的研究人员与达姆施塔特工业大学、爱丁堡大学和慕尼黑大学的合作伙伴共同完成。该研究由 HPLT 和 UTTER 资助。