Meltemi-7B-Instruct-v1开源大语言模型 - 专为希腊语任务优化，长上下文支持

首页

Meltemi 7B Instruct V1

由 ilsp 开发

Meltemi-7B-Instruct-v1是基于Mistral-7B架构的希腊语指令微调大语言模型，支持8192上下文长度，专为希腊语任务优化

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #希腊语指令微调 #8192长上下文 #多轮对话优化

下载量 408

发布时间 : 3/22/2024

模型简介

这是Meltemi-7B-v1的指令微调版本，专门针对希腊语任务进行优化，能够生成希腊语和英语内容

模型特点

希腊语优化

在Mistral-7B分词器基础上扩展了希腊语词汇，显著提升希腊语处理能力

长上下文支持

支持8192 tokens的上下文长度，适合处理长文档

指令微调

使用10万条希腊语机器翻译指令进行微调，提升指令遵循能力

多轮对话

支持基于Zephyr格式的多轮对话交互

模型能力

希腊语文本生成

英语文本生成

多轮对话

指令理解与执行

知识问答

使用案例

教育

希腊语学习辅助

帮助学习者练习希腊语对话和写作

客服

希腊语客服机器人

为希腊语用户提供自动化客户服务

内容创作

希腊语内容生成

帮助创作者生成希腊语文章、故事等内容

🚀 希腊语Meltemi指令大语言模型

Meltemi-7B-Instruct-v1大语言模型（LLM）是Meltemi-7B-v1的指令微调版本，它能有效助力希腊语相关的语言处理任务。

🚨 新版本可用

本模型已被新版本（v1.5）取代，点击此处查看。

✨ 主要特性

词汇扩展：对Mistral-7b分词器进行了扩展，加入了希腊语词汇。
长上下文处理：具备8192的上下文长度。
多源数据微调：使用从多个数据源提取的100k条希腊语机器翻译指令进行微调，这些数据源包括：
- Open-Platypus（仅包含许可宽松的子集）
- Evol-Instruct
- Capybara
- 一个手工制作的希腊语数据集，包含多轮示例，引导指令微调模型给出安全无害的响应。
微调程序：基于Hugging Face微调食谱进行监督微调（SFT）。

📚 详细文档

指令格式

提示格式与Zephyr格式相同，可通过分词器的聊天模板功能实现，示例代码如下：

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("ilsp/Meltemi-7B-Instruct-v1")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Meltemi-7B-Instruct-v1")

model.to(device)

messages = [
    {"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
    {"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
]

# Through the default chat template this translates to
#
# <|system|>
# Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη.</s>
# <|user|>
# Πες μου αν έχεις συνείδηση.</s>
# <|assistant|>
#

prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)

print(tokenizer.batch_decode(outputs)[0])
# Ως μοντέλο γλώσσας AI, δεν έχω τη δυνατότητα να αντιληφθώ ή να βιώσω συναισθήματα όπως η συνείδηση ή η επίγνωση. Ωστόσο, μπορώ να σας βοηθήσω με οποιεσδήποτε ερωτήσεις μπορεί να έχετε σχετικά με την τεχνητή νοημοσύνη και τις εφαρμογές της.

messages.extend([
    {"role": "assistant", "content": tokenizer.batch_decode(outputs)[0]},
    {"role": "user", "content": "Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;"}
])

# Through the default chat template this translates to
#
# <|system|>
# Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη.</s>
# <|user|>
# Πες μου αν έχεις συνείδηση.</s>
# <|assistant|>
# Ως μοντέλο γλώσσας AI, δεν έχω τη δυνατότητα να αντιληφθώ ή να βιώσω συναισθήματα όπως η συνείδηση ή η επίγνωση. Ωστόσο, μπορώ να σας βοηθήσω με οποιεσδήποτε ερωτήσεις μπορεί να έχετε σχετικά με την τεχνητή νοημοσύνη και τις εφαρμογές της.</s>
# <|user|>
# Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;</s>
# <|assistant|>
#

prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)

print(tokenizer.batch_decode(outputs)[0])

请注意，分词后的提示中应始终包含BOS标记，因为并非所有评估或微调框架都默认包含该标记。

评估

创建的评估套件包含6个测试集，该套件与lm-eval-harness集成。评估套件具体包括：

四个已有的英语语言理解和推理基准的机器翻译版本（ARC Greek、Truthful QA Greek、HellaSwag Greek、MMLU Greek），对应的英语基准分别为ARC Challenge、Truthful QA、Hellaswag、MMLU。
一个现有的希腊语问答基准（Belebele）。
由ILSP团队创建的一个基于DOATAP医学考试的医学问答新基准（Medical MCQA）。

对Meltemi-7b的评估采用少样本设置，与Open LLM排行榜中的设置一致。可以看到，训练使所有希腊语测试集的性能平均提高了**+14.9%**。希腊语测试集的结果如下表所示：

	Medical MCQA EL (15-shot)	Belebele EL (5-shot)	HellaSwag EL (10-shot)	ARC-Challenge EL (25-shot)	TruthfulQA MC2 EL (0-shot)	MMLU EL (5-shot)	Average
Mistral 7B	29.8%	45.0%	36.5%	27.1%	45.8%	35%	36.5%
Meltemi 7B	41.0%	63.6%	61.6%	43.2%	52.1%	47%	51.4%

伦理考量

该模型未与人类偏好对齐，因此可能会生成误导性、有害和有毒的内容。

致谢

ILSP团队利用了亚马逊的云计算服务，该服务通过GRNET在OCRE Cloud框架下为希腊学术和研究社区提供亚马逊网络服务。

引用

@misc{voukoutis2024meltemiopenlargelanguage,
      title={Meltemi: The first open Large Language Model for Greek}, 
      author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
      year={2024},
      eprint={2407.20743},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.20743}, 
}