Meltemi-7B-v1开源大型语言模型 - 增强希腊语及英语能力助力交流表达

首页

Meltemi 7B V1

由 ilsp 开发

首个希腊语大型基础语言模型，基于Mistral-7B架构，通过400亿token的希腊语和英语语料增强希腊语能力

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #希腊语大模型 #双语增强 #医疗问答

下载量 49

发布时间 : 3/22/2024

模型简介

由雅典研究与创新中心下属的语言与语音处理研究所训练的首个希腊语大语言模型，支持希腊语和英语，具备文本生成能力

模型特点

希腊语优化

扩展Mistral-7B分词器以支持希腊语词汇，通过285亿希腊语token增强希腊语能力

双语能力

在增强希腊语能力的同时保持英语能力，防止灾难性遗忘

长上下文支持

支持8192个token的上下文长度

高质量语料

使用严格清洗去重的400亿token语料库进行训练

模型能力

希腊语文本生成

英语文本生成

双语文本处理

使用案例

教育

希腊语学习辅助

帮助学习者理解和生成希腊语内容

医疗

医疗问答

基于希腊语医疗考试数据集的问答能力

在医疗MCQA希腊语测试集上达到41.0%准确率

🚀 Meltemi：适用于希腊语的大型基础语言模型

我们推出了Meltemi，这是由雅典研究与创新中心旗下的语言与语音处理研究所训练的首个希腊语大型语言模型（LLM）。Meltemi基于[Mistral - 7B](https://huggingface.co/mistralai/Mistral - 7B - v0.1)构建，通过在大量高质量且与当地相关的希腊语文本语料库上进行持续预训练，扩展了其对希腊语的处理能力。我们推出了Meltemi - 7B - v1，以及经过指令微调的版本[Meltemi - 7B - Instruct - v1](https://huggingface.co/ilsp/Meltemi - 7B - Instruct - v1)。

image/png

🚀 快速开始

新版本提示

⚠️ 重要提示

此模型已被新版本（v1.5）取代，新版本可在[此处](https://huggingface.co/ilsp/Meltemi - 7B - v1.5)获取。

✨ 主要特性

基于Mistral - 7B，通过在大规模希腊语文本语料库上持续预训练，扩展了对希腊语的处理能力。
推出基础版本Meltemi - 7B - v1和指令微调版本Meltemi - 7B - Instruct - v1。

📚 详细文档

模型信息

属性	详情
模型类型	基于Mistral - 7B扩展的希腊语大型语言模型
词汇扩展	对Mistral - 7B分词器进行扩展，加入希腊语标记
上下文长度	8192
训练数据	利用约400亿个标记的大规模语料库进行预训练，其中包括285亿个单语希腊语标记（来自公开资源）、105亿个单语英语标记和6亿个希腊 - 英语平行数据标记。该语料库经过处理、过滤和去重以确保数据质量。

训练数据详情

子语料库	标记数量	百分比
希腊语	28,555,902,360	72.0%
英语	10,478,414,033	26.4%
平行语料	633,816,023	1.6%
总计	39,668,132,416	100%

使用说明

请确保在分词后的提示中始终包含BOS标记，因为并非所有评估或微调框架都默认包含该标记。

评估

评估套件包含6个测试集，并与[lm - eval - harness](https://github.com/EleutherAI/lm - evaluation - harness)集成。具体测试集如下：

四个对成熟英语语言理解和推理基准进行机器翻译后的希腊语版本：ARC希腊语、Truthful QA希腊语、HellaSwag希腊语、MMLU希腊语。
一个现有的希腊语问答基准：Belebele。
由ILSP团队创建的基于DOATAP医学考试的医学问答新基准：Medical MCQA。

对Meltemi - 7B的评估在少样本设置下进行，与开放大语言模型排行榜的设置一致。训练使模型在所有希腊语测试集上的性能平均提高了**+14.9%**。希腊语测试集的结果如下表所示：

	医学多选问答希腊语（15样本）	Belebele希腊语（5样本）	HellaSwag希腊语（10样本）	ARC挑战希腊语（25样本）	真实问答多选2希腊语（0样本）	MMLU希腊语（5样本）	平均
Mistral 7B	29.8%	45.0%	36.5%	27.1%	45.8%	35%	36.5%
Meltemi 7B	41.0%	63.6%	61.6%	43.2%	52.1%	47%	51.4%

伦理考量

⚠️ 重要提示

此模型未与人类偏好对齐，因此可能会生成误导性、有害和有毒的内容。

致谢

ILSP团队使用了亚马逊的云计算服务，该服务由GRNET通过[OCRE云框架](https://www.ocre - project.eu/)为希腊学术和研究社区提供。

引用

@misc{voukoutis2024meltemiopenlargelanguage,
      title={Meltemi: The first open Large Language Model for Greek}, 
      author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
      year={2024},
      eprint={2407.20743},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.20743}, 
}