🚀 Meltemi:适用于希腊语的大型基础语言模型
我们推出了Meltemi,这是由雅典研究与创新中心旗下的语言与语音处理研究所训练的首个希腊语大型语言模型(LLM)。Meltemi基于[Mistral - 7B](https://huggingface.co/mistralai/Mistral - 7B - v0.1)构建,通过在大量高质量且与当地相关的希腊语文本语料库上进行持续预训练,扩展了其对希腊语的处理能力。我们推出了Meltemi - 7B - v1,以及经过指令微调的版本[Meltemi - 7B - Instruct - v1](https://huggingface.co/ilsp/Meltemi - 7B - Instruct - v1)。

🚀 快速开始
新版本提示
⚠️ 重要提示
此模型已被新版本(v1.5)取代,新版本可在[此处](https://huggingface.co/ilsp/Meltemi - 7B - v1.5)获取。
✨ 主要特性
- 基于Mistral - 7B,通过在大规模希腊语文本语料库上持续预训练,扩展了对希腊语的处理能力。
- 推出基础版本Meltemi - 7B - v1和指令微调版本Meltemi - 7B - Instruct - v1。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于Mistral - 7B扩展的希腊语大型语言模型 |
词汇扩展 |
对Mistral - 7B分词器进行扩展,加入希腊语标记 |
上下文长度 |
8192 |
训练数据 |
利用约400亿个标记的大规模语料库进行预训练,其中包括285亿个单语希腊语标记(来自公开资源)、105亿个单语英语标记和6亿个希腊 - 英语平行数据标记。该语料库经过处理、过滤和去重以确保数据质量。 |
训练数据详情
子语料库 |
标记数量 |
百分比 |
希腊语 |
28,555,902,360 |
72.0% |
英语 |
10,478,414,033 |
26.4% |
平行语料 |
633,816,023 |
1.6% |
总计 |
39,668,132,416 |
100% |
使用说明
请确保在分词后的提示中始终包含BOS标记,因为并非所有评估或微调框架都默认包含该标记。
评估
评估套件包含6个测试集,并与[lm - eval - harness](https://github.com/EleutherAI/lm - evaluation - harness)集成。具体测试集如下:
对Meltemi - 7B的评估在少样本设置下进行,与开放大语言模型排行榜的设置一致。训练使模型在所有希腊语测试集上的性能平均提高了**+14.9%**。希腊语测试集的结果如下表所示:
|
医学多选问答希腊语(15样本) |
Belebele希腊语(5样本) |
HellaSwag希腊语(10样本) |
ARC挑战希腊语(25样本) |
真实问答多选2希腊语(0样本) |
MMLU希腊语(5样本) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B |
41.0% |
63.6% |
61.6% |
43.2% |
52.1% |
47% |
51.4% |
伦理考量
⚠️ 重要提示
此模型未与人类偏好对齐,因此可能会生成误导性、有害和有毒的内容。
致谢
ILSP团队使用了亚马逊的云计算服务,该服务由GRNET通过[OCRE云框架](https://www.ocre - project.eu/)为希腊学术和研究社区提供。
引用
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 许可证
本模型采用Apache - 2.0许可证。