🚀 HiTZ/Latxa-Llama-3.1-8B-Instruct模型
Latxa 3.1 8B Instruct是Latxa的指令版本。该模型基于Llama-3.1 (Instruct),使用语言适配技术在包含430万篇文档和420亿个标记的巴斯克语语料库(Etxaniz等人,2024)上进行训练(相关论文正在准备中)。初步实验表明,Latxa 3.1 8B Instruct在巴斯克语标准基准测试中,尤其是在聊天对话方面,大幅优于Llama-3.1-Instruct。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-8B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主要特性
- 性能优越:在巴斯克语标准基准测试和聊天对话中,大幅优于Llama-3.1-Instruct。
- 语言适配:基于巴斯克语语料库进行训练,更适合处理巴斯克语数据。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-8B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
高级用法
文档未提及高级用法代码示例,故跳过此部分。
📚 详细文档
模型详情
模型描述
Latxa是基于Meta的LLaMA模型的大语言模型(LLM)家族。当前的大语言模型在英语等高资源语言上表现出色,但在巴斯克语等低资源语言上,其性能接近随机猜测。这些限制在数字发展方面扩大了高资源语言和低资源语言之间的差距。我们推出Latxa以克服这些限制,促进基于大语言模型的巴斯克语技术和研究的发展。Latxa模型遵循与其原始对应模型相同的架构,并在Latxa语料库v1.1(一个高质量的巴斯克语语料库)上进行了进一步训练。
属性 |
详情 |
开发者 |
HiTZ研究中心和IXA研究小组(巴斯克大学UPV/EHU) |
模型类型 |
语言模型 |
语言(NLP) |
eu |
许可证 |
llama3.1 |
基础模型 |
meta-llama/Llama-3.1-8B-Instruct |
联系方式 |
hitz@ehu.eus |
使用说明
直接使用
Latxa Instruct模型经过训练,可以遵循指令或作为聊天助手使用。
非预期使用
该模型不应用于恶意活动,如伤害他人或侵犯人权。任何下游应用都必须遵守现行法律法规。同时,不鼓励在生产环境中未经适当风险评估和缓解就进行不负责任的使用。
偏差、风险和限制
为了减少潜在的令人不安或有害的内容,Latxa在经过精心选择和处理的数据上进行了训练,这些数据主要来自当地媒体、国家/地区报纸、百科全书和博客(见Latxa语料库v1.1)。尽管如此,该模型基于Llama 3.1模型,可能存在相同的偏差、风险和限制。有关更多信息,请参阅Llama的道德考量和限制。
训练详情
⚠️ 重要提示
更多训练细节将在不久的将来随相应的研究论文一起发布。
评估
我们在多项选择题任务的5次样本设置下对模型进行了评估。我们使用了每个数据集的巴斯克语分区。竞技场结果将在未来发布。
测试数据、因素和指标
测试数据
- Belebele(Bandarkar等人):Belebele是一个涵盖122种语言变体的多项选择机器阅读理解(MRC)数据集。我们以5次样本的方式对模型进行了评估。
- 数据卡片:https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze(Lin等人):XStoryCloze由英语StoryCloze数据集专业翻译为10种非英语语言的版本组成。Story Cloze是一个常识推理数据集,包括为一个四句故事选择正确的结尾。我们以5次样本的方式对模型进行了评估。
- 数据卡片:https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency(Etxaniz等人,2024):EusProficiency包含来自过去EGA考试(巴斯克语官方C1级水平证书考试)不同主题的5169道练习题。
- 数据卡片:https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading(Etxaniz等人,2024):EusReading由来自同一组过去EGA考试的352道阅读理解练习题(irakurmena)组成。
- 数据卡片:https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia(Etxaniz等人,2024):EusTrivia由来自多个在线来源的1715道琐事问题组成。其中56.3%的问题为初级水平(3 - 6年级),其余问题被认为具有挑战性。
- 数据卡片:https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams(Etxaniz等人,2024):EusExams是一组为准备巴斯克多个机构(包括公共卫生系统Osakidetza、巴斯克政府、毕尔巴鄂和加斯泰兹市议会以及巴斯克大学(UPV/EHU))举办的公共服务考试而设计的测试。
- 数据卡片:https://huggingface.co/datasets/HiTZ/EusExams
指标
由于这些任务被设计为多项选择题,我们使用准确率作为评估指标。
结果
任务 |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
环境影响
可以使用Lacoste等人(2019)提出的机器学习影响计算器来估算碳排放。
属性 |
详情 |
硬件类型 |
HPC集群,4 x A100 64Gb节点x32 |
使用时长(总GPU小时) |
2336小时 |
云服务提供商 |
CINECA HPC |
计算区域 |
意大利 |
碳排放 |
277.52千克CO2当量 |
致谢
这项工作得到了巴斯克政府(IKER-GAITU项目)的部分支持。
它还得到了数字转型和公共职能部的部分支持 - 由欧盟资助 - 下一代欧盟,项目编号为2022/TL22/00215335。
这些模型在CINECA的Leonardo超级计算机上进行训练,该项目属于EuroHPC联合项目,项目编号为EHPC-EXT-2023E01-013。
引用
即将推出。
同时,您可以参考:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
该模型遵循Llama-3.1许可证,允许商业和研究使用。