🚀 HiTZ/Latxa-Llama-3.1-70B-Instruct模型
HiTZ/Latxa-Llama-3.1-70B-Instruct是基于Meta的LLaMA模型开发的大语言模型,旨在克服现有大语言模型在巴斯克语等低资源语言上的性能局限,推动基于大语言模型的巴斯克语技术和研究发展。该模型在巴斯克语标准基准测试和聊天对话中表现出色,在公开评估中排名靠前。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主要特性
- 性能卓越:在巴斯克语标准基准测试和聊天对话中,大幅超越Llama-3.1-Instruct。
- 公开评估排名靠前:在公开竞技场评估中,Latxa排名第3,仅次于Claude和GPT - 4,领先于所有同规模竞争对手。
- 推动低资源语言发展:针对巴斯克语等低资源语言进行优化,缩小高资源语言和低资源语言在数字发展上的差距。
📚 详细文档
模型详情
- 模型描述:Latxa是基于Meta的LLaMA模型的大语言模型家族。当前的大语言模型在英语等高资源语言上表现出色,但在巴斯克语等低资源语言上的性能接近随机猜测。Latxa旨在克服这些局限,推动基于大语言模型的巴斯克语技术和研究发展。Latxa模型采用与原始模型相同的架构,并在Latxa语料库v1.1上进行了进一步训练。
- 开发团队:HiTZ研究中心和IXA研究小组(巴斯克大学UPV/EHU)
- 模型类型:语言模型
- 语言:eu
- 许可证:llama3.1
- 基础模型:meta - llama/Llama-3.1-70B-Instruct
- 联系方式:hitz@ehu.eus
使用说明
- 使用范围:Latxa模型旨在用于巴斯克语数据,对于其他语言,性能无法保证。该模型继承了Llama-3.1许可证,允许商业和研究使用。
- 直接使用:Latxa Instruct模型经过训练,可以遵循指令或作为聊天助手。
- 禁止使用场景:该模型不应用于恶意活动,如伤害他人或侵犯人权。任何下游应用都必须遵守现行法律法规。不建议在生产环境中未经适当风险评估和缓解措施就进行不负责任的使用。
偏差、风险和局限性
为了减少潜在的不良或有害内容,Latxa在精心选择和处理的数据上进行了训练,这些数据主要来自当地媒体、国家/地区报纸、百科全书和博客(见Latxa语料库v1.1)。然而,该模型基于Llama 3.1模型,可能存在相同的偏差、风险和局限性。有关更多信息,请参阅Llama的道德考量和局限性。
训练详情
⚠️ 重要提示
更多训练细节将在近期随相应的研究论文一起发布。
评估
- 测试数据
- Belebele (Bandarkar等人):Belebele是一个涵盖122种语言变体的多项选择机器阅读理解(MRC)数据集。我们以5次样本学习的方式评估了该模型。数据卡片
- X - StoryCloze (Lin等人):XStoryCloze是将英语StoryCloze数据集专业翻译为10种非英语语言的版本。Story Cloze是一个常识推理数据集,包括为一个四句故事选择正确的结尾。我们以5次样本学习的方式评估了该模型。数据卡片
- EusProficiency (Etxaniz等人, 2024):EusProficiency包含来自过去EGA考试的5169道不同主题的练习题,EGA考试是巴斯克语官方C1级水平证书考试。数据卡片
- EusReading (Etxaniz等人, 2024):EusReading由来自同一组过去EGA考试的352道阅读理解练习题组成。数据卡片
- EusTrivia (Etxaniz等人, 2024):EusTrivia由来自多个在线来源的1715道琐事问题组成。其中56.3%的问题为小学水平(3 - 6年级),其余问题具有挑战性。数据卡片
- EusExams (Etxaniz等人, 2024):EusExams是为准备巴斯克地区多个机构举办的公共服务考试而设计的测试集合,包括公共卫生系统Osakidetza、巴斯克政府、毕尔巴鄂和加斯泰斯市议会以及巴斯克大学(UPV/EHU)。数据卡片
- 指标:由于测试以多项选择题的形式呈现,我们使用准确率作为评估指标。
- 结果
| 任务 | Llama - 3.1 8B Instruct | Latxa 3.1 8B Instruct | Llama - 3.1 70B Instruct | Latxa 3.1 70B Instruct |
| ---- | :---: | :---: | :---: | :---: |
| Belebele | 73.89 | 80.00 | 89.11 | 91.00 |
| X - Story Cloze | 61.22 | 71.34 | 69.69 | 77.83 |
| EusProficiency | 34.13 | 52.83 | 43.59 | 68.00 |
| EusReading | 49.72 | 62.78 | 72.16 | 78.98 |
| EusTrivia | 45.01 | 61.05 | 62.51 | 74.17 |
| EusExams | 46.21 | 56.00 | 63.28 | 71.56 |
环境影响
碳排放可以使用机器学习影响计算器进行估算,该计算器由Lacoste等人(2019)提出。
- 硬件类型:HPC集群,4 x A100 64Gb节点x64
- 使用时长(总GPU小时数):16005.12h
- 云服务提供商:CINECA HPC
- 计算区域:意大利
- 碳排放:1901.41kg CO2 eq
📄 许可证
该模型使用llama3.1许可证。
致谢
这项工作得到了巴斯克政府(IKER - GAITU项目)的部分支持。
它还得到了数字转型和公共职能部的部分支持,该部门由欧盟 - 下一代欧盟资助,项目编号为2022/TL22/00215335。
这些模型在CINECA的Leonardo超级计算机上进行训练,该项目属于EuroHPC联合项目,项目编号为EHPC - EXT - 2023E01 - 013。
引用
引用信息即将发布。
在此期间,您可以参考:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}