模型简介
模型特点
模型能力
使用案例
🚀 Llama-Krikri-8B-Instruct:适用于希腊语的指令调优大语言模型
Llama-Krikri-8B-Instruct是基于Llama-3.1-8B扩展而来的大语言模型,通过在大量高质量希腊语文本上持续预训练,增强了对希腊语的处理能力,在多语言任务中表现出色。
🚀 快速开始
使用Transformers库
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Instruct")
model.to(device)
system_prompt = "Είσαι το Κρικρί, ένα εξαιρετικά ανεπτυγμένο μοντέλο Τεχνητής Νοημοσύνης για τα ελληνικα και εκπαιδεύτηκες από το ΙΕΛ του Ε.Κ. \"Αθηνά\"."
user_prompt = "Σε τι διαφέρει ένα κρικρί από ένα λάμα;"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
通过vLLM使用兼容OpenAI的服务器
vllm serve ilsp/Llama-Krikri-8B-Instruct \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
然后,可以通过Python使用该模型:
from openai import OpenAI
api_key = "token-abc123"
base_url = "http://localhost:8000/v1"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
system_prompt = "Είσαι ένα ανεπτυγμένο μεταφραστικό σύστημα που απαντάει με λίστες Python. Δεν γράφεις τίποτα άλλο στις απαντήσεις σου πέρα από τις μεταφρασμένες λίστες."
user_prompt = "Δώσε μου την παρακάτω λίστα με μεταφρασμένο κάθε string της στα ελληνικά: ['Ethics of duty', 'Postmodern ethics', 'Consequentialist ethics', 'Utilitarian ethics', 'Deontological ethics', 'Virtue ethics', 'Relativist ethics']"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt},
]
response = client.chat.completions.create(model="ilsp/Llama-Krikri-8B-Instruct",
messages=messages,
temperature=0.0,
top_p=0.95,
max_tokens=8192,
stream=False)
print(response.choices[0].message.content)
# ['Ηθική καθήκοντος', 'Μεταμοντέρνα ηθική', 'Συνεπειοκρατική ηθική', 'Ωφελιμιστική ηθική', 'Δεοντολογική ηθική', 'Ηθική αρετών', 'Σχετικιστική ηθική']
✨ 主要特性
- 增强的聊天和指令遵循能力:在希腊语和英语中都具备出色的聊天能力和指令遵循能力。
- 多语言文档翻译:支持希腊语与英语、法语、德语、意大利语、葡萄牙语、西班牙语之间的文档翻译。
- 多样化任务表现:在生成、理解和编辑任务(如总结、创意内容创作、文本修改、实体识别、情感分析等)中表现出色。
- 特定领域专业知识:适用于法律、金融、医疗和科学等专业领域的应用。
- 检索增强生成(RAG):利用128k上下文长度的多个文档进行检索增强生成。
- 改进的编码和代理能力:具备正确的格式和工具使用能力。
- 数据转换和提取:支持在数据到文本和文本到数据的设置中进行转换或结构化提取(如XML、JSON)。
- 分析思维和链式思维推理:具备解决问题的分析思维和链式思维推理能力。
📦 安装指南
暂未提供相关安装步骤信息。
📚 详细文档
模型信息
基础模型
- 词汇扩展:对Llama - 3.1分词器进行了希腊语词汇扩展。
- 上下文长度:具有128k的上下文长度(约80,000个希腊语单词)。
- 预训练扩展:通过使用大型训练语料库,扩展了Llama - 3.1 - 8B对希腊语的预训练能力。该语料库包括:
- 567亿单语希腊语标记,由公开可用资源构建。
- 为减轻灾难性遗忘并确保模型具备双语能力,使用了额外的单语英语文本子语料库(210亿标记)和希腊语 - 英语平行数据(55亿标记)。
- 训练语料库还包含78亿数学和代码标记。
- 该语料库经过处理、过滤和去重,以确保数据质量,具体分布如下:
子语料库 | 标记数量 | 百分比 |
---|---|---|
希腊语 | 567亿 | 62.3% |
英语 | 210亿 | 23.1% |
平行数据 | 55亿 | 6.0% |
数学/代码 | 78亿 | 8.6% |
总计 | 910亿 | 100% |
选择的910亿语料库子集进行上采样,最终达到1100亿标记。
指令模型
Llama - Krikri - 8B - Instruct是对Llama - Kriki - 8B - Base进行后训练的结果,具有以下特点:
- 增强了希腊语和英语的聊天能力和指令遵循能力。
- 支持希腊语与英语、法语、德语、意大利语、葡萄牙语、西班牙语之间的文档翻译。
- 在生成、理解和编辑任务(如总结、创意内容创作、文本修改、实体识别、情感分析等)中表现出色。
- 具备法律、金融、医疗和科学等专业领域的特定专业知识。
- 利用128k上下文长度的多个文档进行检索增强生成(RAG)。
- 改进了编码和代理能力,具备正确的格式和工具使用能力。
- 支持在数据到文本和文本到数据的设置中进行转换或结构化提取(如XML、JSON)。
- 具备解决问题的分析思维和链式思维推理能力。
后训练方法
采用多阶段过程构建Llama - Krikri - 8B - Instruct,包括:
- 两阶段监督微调:结合希腊语和英语的指令 - 响应对(及多轮对话)。
- 第一阶段:856,946个指令 - 响应对(371,379个希腊语 + 485,567个英语)。
- 第二阶段:638,408个指令 - 响应对(279,948个希腊语 + 358,460个英语)。
- 对齐:结合希腊语和英语的偏好三元组(指令 - 选择响应 - 拒绝响应)。
- 长度归一化DPO:92,394个偏好三元组(47,132个希腊语 + 45,262个英语)。
后训练数据构建
为构建SFT和DPO数据,采用了多种方法,包括:
- 收集现有高质量数据集,如Tulu 3、SmolTalk、MAGPIE Ultra等。
- 使用内部翻译工具将各种数据翻译成希腊语。
- 重新生成翻译数据,并对比翻译响应和重新生成的响应(用于创建偏好三元组)。
- 采用MAGPIE方法提炼在希腊语中表现出色的模型,如Gemma 2 27B IT。
- 使用Skywork Reward Gemma 2 27B v0.2奖励模型对数据进行评分,并使用基于规则的过滤器进行过滤。
- 使用主要来自ELRC - SHARE的高质量平行语料库创建句子和文档翻译数据。
- 从维基百科、EUR - LEX、希腊学校书籍和Kallipos等不同来源合成提取问答对和多轮对话。
评估
在以下表格中,报告了聊天评估套件的得分,包括:
- 希腊语IFEval(严格平均)
- 英语IFEval(严格平均)
- 希腊语MT - Bench,使用gpt - 4o - 2024 - 08 - 06作为评判模型。
- 英语MT - Bench,使用gpt - 4o - 2024 - 08 - 06作为评判模型。
可以观察到,Llama - Krikri - 8B - Instruct在希腊语和英语的指令遵循方面表现最强,在希腊语和英语IFEval中分别比Llama - 3.1 - 8B - Instruct高出**+21.7%和+7.3%。它在希腊语MT - Bench基准测试中也表现出最强的聊天能力**(与Aya Expanse 8B相比高出+0.28),在英语MT - Bench基准测试中也具有很强的竞争力。
模型 | 希腊语IFEval(严格平均) | 英语IFEval(严格平均) | 希腊语MT - Bench | 英语MT - Bench |
---|---|---|---|---|
Qwen 2.5 7B Instruct | 46.2% | 74.8% | 5.83 | 7.87 |
EuroLLM 9B Instruct | 51.3% | 64.5% | 5.98 | 6.27 |
Aya Expanse 8B | 50.4% | 62.2% | 7.68 | 6.92 |
Meltemi 7B v1.5 Instruct | 32.7% | 41.2% | 6.25 | 5.46 |
Llama - 3.1 - 8B Instruct | 45.8% | 75.1% | 6.46 | 7.25 |
Llama - Krikri - 8B Instruct | 67.5% | 82.4% | 7.96 | 7.21 |
还使用了Arena - Hard - Auto自动评估工具,以及希腊语的翻译(和后期编辑)版本,可在此处获取。报告了Arena - Hard - Auto的两个得分:
- 无风格控制:基准测试的原始版本。
- 有风格控制:对Markdown元素采用风格控制方法的基准测试。可以在此博客中了解更多关于方法和技术背景的信息。
以下展示了使用gpt - 4o - 2024 - 08 - 06作为评判模型和gpt - 4o - mini - 2024 - 07 - 18作为基线模型(即默认得分为50%)确定的各种开放和封闭聊天模型的希腊语Arena - Hard - Auto得分。
Llama - Krikri - 8B Instruct表现出非常强的聊天能力,得分高于其8倍以上规模的模型(如Llama - 3.1 - 70B Instruct),并且与闭源模型(如GPT - 4o - Mini)和高性能开源模型(如Gemma 2 27B IT和Aya Expanse 32B)具有竞争力。
以下展示了原始Arena - Hard - Auto数据集的各种开放和封闭聊天模型的得分。遵循原始方法,使用gpt - 4 - 1106 - preview作为评判模型和gpt - 4 - 0314作为基线模型。
Llama - Krikri - 8B Instruct在英语版Arena - Hard - Auto中也表现出色,与类似规模的大语言模型具有竞争力,并且比Llama - 3.1 - 8B Instruct提高了**+24.5% / +16%**(无风格控制/有风格控制)。
请注意,评判模型可能会偏向于使用从它们提炼的数据训练的学生模型。可以在此处了解更多信息。
致谢
ILSP团队利用了亚马逊的云计算服务,该服务通过GRNET在OCRE Cloud框架下提供,为希腊学术和研究社区提供亚马逊网络服务。
🔧 技术细节
暂未提供相关技术细节信息。
📄 许可证
本模型使用的许可证为llama3.1。
⚠️ 重要提示
请使用官方量化版本:GGUF 或请求特定版本。由于我们已经更新了模型的权重,不能保证您使用的是第三方量化的最新改进版本。
🚨 更多关于后训练、方法和评估的信息即将推出。 🚨



