模型简介
模型特点
模型能力
使用案例
🚀 Latxa 7b大语言模型
Latxa是一系列面向巴斯克语的大语言模型,参数范围从70亿到700亿。它基于Llama 2,在新的巴斯克语语料库上继续预训练。在评估中,Latxa大幅超越之前的开源模型,在语言能力和理解方面可与GPT - 4 Turbo竞争。模型、预训练语料库和评估数据集都在开源许可下公开,便于低资源语言大语言模型的研究。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import pipeline
pipe = pipeline("text-generation", model="HiTZ/latxa-7b-v1.2")
text = "Euskara adimen artifizialera iritsi da!"
pipe(text, max_new_tokens=50, num_beams=5)
>> [
{
'generated_text': 'Euskara adimen artifizialera iritsi da!\nEuskararen eta adimen artifizialaren arteko harremana aspaldikoa da,'
' baina azken urteotan aurrerapauso handiak eman dira arlo horretan'
}
]
✨ 主要特性
- 面向巴斯克语:专门为巴斯克语设计,基于Llama 2在新的巴斯克语语料库上继续预训练,提升了对巴斯克语的处理能力。
- 性能优越:在评估中大幅超越之前的开源模型,在语言能力和理解方面可与GPT - 4 Turbo竞争。
- 开源可用:模型、预训练语料库和评估数据集都在开源许可下公开,便于低资源语言大语言模型的研究。
📦 安装指南
文档未提及具体安装步骤,暂无法提供。
📚 详细文档
模型详情
模型描述
Latxa是基于Meta的[LLaMA模型](https://huggingface.co/meta - llama)的大语言模型家族。当前的大语言模型在英语等资源丰富的语言上表现出色,但在巴斯克语等低资源语言上表现不佳。为克服这些限制,促进基于大语言模型的巴斯克语技术和研究发展,推出了Latxa。它采用与原模型相同的架构,在[Latxa语料库v1.1](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)上进一步训练。模型有7B、13B和70B三种规模。
- 开发者:HiTZ研究中心和IXA研究小组(巴斯克大学UPV/EHU)
- 模型类型:语言模型
- 语言:英语、巴斯克语
- 许可证:llama2
- 父模型:meta - llama/Llama - 2 - 7b
- 联系方式:hitz@ehu.eus
使用说明
直接使用
Latxa系列模型是预训练的大语言模型,未进行特定任务或指令微调。可以通过提示执行特定任务,也可进一步微调用于特定用例。
超出适用范围的使用
模型未针对遵循指令或作为聊天助手进行微调,不建议此类使用。
偏差、风险和限制
为减少潜在的不良或有害内容,Latxa在精心选择和处理的数据上训练,数据主要来自当地媒体、国家/地区报纸、百科全书和博客。但模型基于LLaMA模型,可能存在相同的偏差、风险和限制。更多信息请参阅LLaMA的《道德考量和限制》。
训练详情
训练数据
训练语料库结合了各种现有数据集和新发布的数据集。构建语料库时优先考虑质量,采用高质量数据源,并进行了彻底的去重和过滤。总共使用了41.7亿个标记的语料库进行训练。更多细节见[Latxa语料库](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)数据集卡片。此外,还随机选取了Pile数据集中的50万份英语文档,以避免灾难性遗忘。
训练过程
使用[GPT - Neox](https://github.com/EleutherAI/gpt - neox)库进行训练。利用位于意大利的CINECA HPC Leonardo计算集群,该集群有3456个节点,每个节点包含4个定制的A100 64Gb GPU。模型训练了10000步,序列长度为4096个标记,有效批量大小为200万个标记,总共使用了200亿个标记(约4个周期)。使用余弦学习率调度,热身500步,衰减到峰值学习率的3%,峰值学习率设为1e - 4。其他超参数遵循(Touvron et al., 2023)。
评估
在零样本和少样本设置下,对生成、多项选择和分类任务进行评估,使用每个数据集的巴斯克语分区。
测试数据、因素和指标
测试数据
- Belebele (Bandarkar et al.):一个涵盖122种语言变体的多项选择机器阅读理解(MRC)数据集,以5次射击的方式评估模型。数据卡片
- X - StoryCloze (Lin et al.):由英语StoryCloze数据集专业翻译为10种非英语语言的版本,是一个常识推理数据集,以零次射击的方式评估模型。数据卡片
- BasqueGLUE ([Urbizu et al.](https://aclanthology.org/2022.lrec - 1.172.pdf)):巴斯克语的NLU基准,在以下任务上以5次射击的方式评估模型:[数据卡片](https://huggingface.co/datasets/orai - nlp/basqueGLUE)
- BEC2016eu:关于2016年巴斯克选举活动推文的情感分析。
- VaxxStance:关于反疫苗运动推文的立场检测。
- BTHCv2:新闻摘录的主题分类,有12个类别。
- EpecKorrefBin:类似于WSC的指代检测任务。
- QNLIeu:基于巴斯克语维基百科构建的问答NLI。
- WiCeu:巴斯克语的上下文单词任务。
- EusProficiency (Etxaniz et al., 2024):包含5169个来自过去EGA考试的不同主题练习,是巴斯克语官方C1级能力证书考试。数据卡片
- EusReading (Etxaniz et al., 2024):包含352个阅读理解练习,来自同一组过去的EGA考试。数据卡片
- EusTrivia (Etxaniz et al., 2024):包含1715个来自多个在线来源的琐事问题,56.3%的问题是小学水平(3 - 6年级),其余被认为具有挑战性。数据卡片
- EusExams (Etxaniz et al., 2024):是为巴斯克几个机构的公共服务考试准备的测试集合,包括公共卫生系统Osakidetza、巴斯克政府、毕尔巴鄂和加斯泰兹市议会以及巴斯克大学(UPV/EHU)。数据卡片
指标
大多数任务使用准确率,因为它们是多项选择题。对于其他任务,特别是BasqueGLUE基准的任务,使用以下指标:
- 微观F1:BEC2016 - eu和BHTCv2
- 宏观F1:VaxxStance(支持和反对)
评估结果
使用Eleuther AI的LM评估工具库评估模型。要重现结果,请遵循Latxa的[Github仓库](https://github.com/hitz - zentroa/latxa?tab=readme - ov - file#evaluation)中的说明。
模型 | 规模 | XStory | Belebele | BasGLUE | EusProf | EusRead | EusTrivia | EusExams | 平均 |
---|---|---|---|---|---|---|---|---|---|
随机 | 50.00 | 25.00 | 37.50 | 25.00 | 25.83 | 26.55 | 25.00 | 30.70 | |
GPT 3.5 Turbo | n/a | -- | 57.33 | 48.62 | 31.24 | 36.65 | 46.71 | 42.42 | -- |
GPT 4 Turbo | n/a | -- | 90.67 | 62.90 | 56.70 | 75.85 | 73.12 | 70.22 | -- |
XGLM | 7B | 57.71 | 23.88 | 41.47 | 22.96 | 24.43 | 26.53 | 24.59 | 32.51 |
BLOOM | 7B | 57.18 | 27.00 | 40.17 | 25.34 | 28.41 | 27.17 | 25.07 | 33.86 |
Mistral | 7B | 51.09 | 38.89 | 39.22 | 25.01 | 29.26 | 34.58 | 32.15 | 35.94 |
Llama 2 | 7B | 50.43 | 26.22 | 38.20 | 24.09 | 27.27 | 29.50 | 28.84 | 32.51 |
Latxa v1.1 | 7B | 65.45 | 37.33 | 52.56 | 30.26 | 25.00 | 42.16 | 33.82 | 40.94 |
mGPT | 13B | 55.39 | 25.00 | 37.56 | 25.00 | 24.15 | 27.17 | 25.73 | 32.14 |
Llama 2 | 13B | 50.63 | 32.00 | 38.98 | 25.90 | 28.98 | 33.53 | 29.66 | 34.36 |
Latxa v1.1 | 13B | 66.51 | 53.89 | 53.36 | 44.11 | 32.67 | 56.38 | 43.66 | 50.08 |
Mixtral | 8x7B | 52.55 | 50.44 | 45.00 | 26.43 | 37.50 | 42.51 | 39.87 | 41.97 |
Yi | 34B | 52.22 | 54.56 | 43.90 | 27.30 | 34.66 | 42.57 | 39.68 | 42.05 |
Llama 2 | 70B | 51.62 | 33.56 | 42.55 | 24.16 | 27.84 | 38.43 | 33.08 | 35.47 |
Latxa v1.1 | 70B | 70.55 | 71.67 | 59.74 | 60.65 | 50.57 | 62.45 | 51.90 | 61.08 |
环境影响
使用机器学习影响计算器估算碳排放。
模型 | 规模 | 时间(GPU小时) | 碳排放(kg CO₂当量) |
---|---|---|---|
Latxa v1.1 | 7B | 952.5h | 124.47kg |
Latxa v1.1 | 13B | 2,518.0h | 329.06kg |
Latxa v1.1 | 70B | 30,266.0h | 3,955.17kg |
总计 | - | 33,636.5h | 4,408.7kg |
- 硬件类型:HPC集群,4x A100 64Gb节点
- 使用时间:33,636.5h
- 计算集群:CINECA HPC
- 计算区域:意大利
- 碳排放:4,408.7kg CO₂当量
致谢
这项工作得到了巴斯克政府(IKER - GAITU项目)的部分支持,也得到了数字转型和公共职能部的部分支持(由欧盟 - 下一代欧盟资助,项目编号2022/TL22/00215335)。模型在CINECA的Leonardo超级计算机上训练,属于EuroHPC联合项目,项目编号EHPC - EXT - 2023E01 - 013。
引用
如需引用我们的工作,请使用以下格式:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
相关链接
- 📒 博客文章:Latxa: An Open Language Model and Evaluation Suite for Basque
- 📖 论文:Latxa: An Open Language Model and Evaluation Suite for Basque
- 💻 代码:[hitz - zentroa/latxa](https://github.com/hitz - zentroa/latxa)



