🚀 Llama-Krikri-8B-Base:面向希腊语的大型基础语言模型
Llama-Krikri-8B-Base是一款专门为希腊语设计的大型基础语言模型。它在Llama-3.1-8B的基础上进行了扩展,通过在大量高质量且与当地相关的希腊语文本语料库上进行持续预训练,增强了对希腊语的处理能力。本项目不仅提供了基础版本,还推出了指令版本Llama-Krikri-8B-Instruct,为希腊语的自然语言处理任务提供了更强大的支持。
🚀 快速开始
在2024年3月26日发布 Meltemi-7B 之后,我们很高兴地将Krikri引入ILSP开放希腊大语言模型家族。Krikri基于 Llama-3.1-8B 构建,通过在大量高质量且与当地相关的希腊语文本语料库上进行持续预训练,扩展了其对希腊语的处理能力。我们推出了Llama-Krikri-8B-Base及其指令版本 Llama-Krikri-8B-Instruct。

✨ 主要特性
- 词汇扩展:对Llama-3.1分词器进行了扩展,加入了希腊语词汇。
- 长上下文处理:支持128k的上下文长度(约80,000个希腊语单词)。
- 多语言能力:通过使用包含希腊语、英语和数学代码等多种数据的训练语料库,模型不仅在希腊语上表现出色,还具备双语能力,同时有效缓解了灾难性遗忘问题。
📦 安装指南
本项目未提供明确的安装步骤,可参考使用示例中的代码,确保相关依赖库已正确安装。
💻 使用示例
基础用法
使用 transformers
库调用模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Base")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Base")
model.to(device)
input_text = tokenizer("Ένα κρικρί διαφέρει απο ένα λάμα επειδή", return_tensors='pt').to(device)
outputs = model.generate(input_text['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
高级用法
通过 vLLM
搭建OpenAI兼容服务器使用模型:
vllm serve ilsp/Llama-Krikri-8B-Base \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
然后,使用Python代码调用模型:
from openai import OpenAI
api_key = "token-abc123"
base_url = "http://localhost:8000/v1"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
response = client.completions.create(model="ilsp/Llama-Krikri-8B-Base",
prompt="Η εκπαίδευση μεγάλων γλωσσικών μοντέλων περιλαμβάνει")
print(response.choices[0].text)
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于Llama-3.1-8B扩展的希腊语大语言模型 |
训练数据 |
训练语料库包含567亿单语希腊语标记、210亿单语英语标记、55亿希腊 - 英语平行数据标记和78亿数学与代码标记。经过处理、过滤和去重以确保数据质量。部分语料进行了上采样,最终语料库大小达到1100亿标记。 |
评估
以下是Llama-Krikri-8B-Base相对于Llama-3.1-8B在希腊语和英语基准测试中的性能提升:
- 希腊语基准测试:提升了 +10.8%
- 英语基准测试:提升了 +0.8%
评估在少样本设置下进行,与 Open LLM排行榜 的设置一致。
希腊语基准测试
我们为希腊语创建的评估套件包含6个测试集,可通过克隆 lighteval分支 运行该套件。评估结果如下:
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
Average |
Meltemi 7B v1.5 |
42.2% |
61.0% |
53.8% |
40.0% |
49.0% |
41.2% |
47.9% |
Llama-3.1-8B |
33.4% |
72.8% |
52.1% |
39.9% |
51.1% |
42.6% |
48.7% |
Llama-Krikri-8B |
53.8% |
82.7% |
64.6% |
49.4% |
54.2% |
52.0% |
59.5% |
英语基准测试
我们的训练方法不仅有效缓解了灾难性遗忘问题,还使所有英语测试集的平均性能提升了 +0.8%。评估结果如下:
|
Winogrande (5-shot) |
Belebele (5-shot) |
HellaSwag (10-shot) |
ARC-Challenge (25-shot) |
TruthfulQA MC2 (0-shot) |
MMLU (5-shot) |
Average |
Meltemi 7B v1.5 |
73.4% |
77.7% |
79.6% |
54.1% |
40.5% |
56.9% |
63.7% |
Llama-3.1-8B |
74.6% |
71.5% |
82.0% |
58.5% |
44.2% |
66.2% |
66.2% |
Llama-Krikri-8B |
72.6% |
79.8% |
80.7% |
57.8% |
44.8% |
65.1% |
67.0% |
请注意,所有评估均使用最新版本的lighteval进行,与过去版本存在一些差异,因此我们报告的Meltemi-7B-v1.5分数与以往不同。
伦理考量
该模型尚未与人类偏好对齐,因此可能会生成误导性、有害和有毒的内容。
致谢
ILSP团队使用了亚马逊的云计算服务,该服务通过GRNET在 OCRE Cloud框架 下为希腊学术和研究社区提供亚马逊网络服务。
📄 许可证
本项目使用Llama3.1许可证。