🚀 Meltemi:面向希腊语的大型基础语言模型
Meltemi是由雅典研究与创新中心(Athena Research & Innovation Center)的语言与语音处理研究所(Institute for Language and Speech Processing)训练的大型基础语言模型。它基于Mistral 7B构建,通过在大量高质量且与当地相关的希腊语文本语料库上进行持续预训练,扩展了其对希腊语的处理能力。本项目推出了Meltemi 7B v1.5版本,以及经过指令微调的版本Meltemi 7B Instruct v1.5。

✨ 主要特性
- 词汇扩展:对Mistral 7B分词器进行了希腊语词汇扩展,降低成本并加快推理速度(希腊语的分词效率从每词6.80个标记提升至1.52个标记)。
- 长上下文处理:支持8192的上下文长度。
- 多语言能力:利用约550亿个标记的大型语料库,扩展了Mistral 7B的预训练,增强了对希腊语的处理能力。该语料库包括433亿个单语希腊语标记、105亿个单语英语标记和6亿个希腊语 - 英语平行数据标记,确保了模型的双语能力。
📦 模型信息
训练语料详情
为确保数据质量,我们对语料库进行了处理、过滤和去重。以下是用于预训练Meltemi 7B v1.5的标记数量和百分比(括号内为Meltemi 7B v1的相应值):
子语料库 |
标记数量 |
百分比 |
希腊语 |
43,383,244,502 (28,555,902,360) |
79.5% (72.0%) |
英语 |
10,538,413,259 (10,478,414,033) |
19.3% (26.4%) |
平行语料 |
633,816,023 (633,816,023) |
1.2% (1.6%) |
总计 |
54,555,473,784 (39,668,132,416) |
100% |
Meltemi 7B v1.5的训练步数不到Meltemi 7B v1的2/3。
💻 使用示例
使用时,请确保在分词后的提示中始终包含BOS标记,因为并非所有评估或微调框架都默认包含该标记。
📚 详细文档
评估情况
我们创建的评估套件包含6个测试集,基于lighteval框架的一个分支实现。与Mistral 7B相比,新的训练过程使模型在所有希腊语测试集上的性能平均提高了16.3%。具体结果如下:
模型 |
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B v1 |
46.3% |
68.5% |
63.3% |
43.6% |
44.6% |
42.4% |
51.4% |
Meltemi 7B v1.5 |
48.1% |
68.6% |
65.7% |
47.1% |
45.1% |
42.4% |
52.8% |
伦理考量
该模型已与人类偏好对齐,但仍可能生成误导性、有害和有毒的内容。
致谢
ILSP团队利用了亚马逊的云计算服务,这些服务通过GRNET在OCRE Cloud框架下提供给希腊学术和研究社区。
引用信息
如果您使用了该模型,请引用以下文献:
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 许可证
本项目采用Apache-2.0许可证。