模型概述
模型特點
模型能力
使用案例
🚀 Latxa 7b大語言模型
Latxa是一系列面向巴斯克語的大語言模型,參數範圍從70億到700億。它基於Llama 2,在新的巴斯克語語料庫上繼續預訓練。在評估中,Latxa大幅超越之前的開源模型,在語言能力和理解方面可與GPT - 4 Turbo競爭。模型、預訓練語料庫和評估數據集都在開源許可下公開,便於低資源語言大語言模型的研究。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import pipeline
pipe = pipeline("text-generation", model="HiTZ/latxa-7b-v1.2")
text = "Euskara adimen artifizialera iritsi da!"
pipe(text, max_new_tokens=50, num_beams=5)
>> [
{
'generated_text': 'Euskara adimen artifizialera iritsi da!\nEuskararen eta adimen artifizialaren arteko harremana aspaldikoa da,'
' baina azken urteotan aurrerapauso handiak eman dira arlo horretan'
}
]
✨ 主要特性
- 面向巴斯克語:專門為巴斯克語設計,基於Llama 2在新的巴斯克語語料庫上繼續預訓練,提升了對巴斯克語的處理能力。
- 性能優越:在評估中大幅超越之前的開源模型,在語言能力和理解方面可與GPT - 4 Turbo競爭。
- 開源可用:模型、預訓練語料庫和評估數據集都在開源許可下公開,便於低資源語言大語言模型的研究。
📦 安裝指南
文檔未提及具體安裝步驟,暫無法提供。
📚 詳細文檔
模型詳情
模型描述
Latxa是基於Meta的[LLaMA模型](https://huggingface.co/meta - llama)的大語言模型家族。當前的大語言模型在英語等資源豐富的語言上表現出色,但在巴斯克語等低資源語言上表現不佳。為克服這些限制,促進基於大語言模型的巴斯克語技術和研究發展,推出了Latxa。它採用與原模型相同的架構,在[Latxa語料庫v1.1](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)上進一步訓練。模型有7B、13B和70B三種規模。
- 開發者:HiTZ研究中心和IXA研究小組(巴斯克大學UPV/EHU)
- 模型類型:語言模型
- 語言:英語、巴斯克語
- 許可證:llama2
- 父模型:meta - llama/Llama - 2 - 7b
- 聯繫方式:hitz@ehu.eus
使用說明
直接使用
Latxa系列模型是預訓練的大語言模型,未進行特定任務或指令微調。可以通過提示執行特定任務,也可進一步微調用於特定用例。
超出適用範圍的使用
模型未針對遵循指令或作為聊天助手進行微調,不建議此類使用。
偏差、風險和限制
為減少潛在的不良或有害內容,Latxa在精心選擇和處理的數據上訓練,數據主要來自當地媒體、國家/地區報紙、百科全書和博客。但模型基於LLaMA模型,可能存在相同的偏差、風險和限制。更多信息請參閱LLaMA的《道德考量和限制》。
訓練詳情
訓練數據
訓練語料庫結合了各種現有數據集和新發布的數據集。構建語料庫時優先考慮質量,採用高質量數據源,並進行了徹底的去重和過濾。總共使用了41.7億個標記的語料庫進行訓練。更多細節見[Latxa語料庫](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)數據集卡片。此外,還隨機選取了Pile數據集中的50萬份英語文檔,以避免災難性遺忘。
訓練過程
使用[GPT - Neox](https://github.com/EleutherAI/gpt - neox)庫進行訓練。利用位於意大利的CINECA HPC Leonardo計算集群,該集群有3456個節點,每個節點包含4個定製的A100 64Gb GPU。模型訓練了10000步,序列長度為4096個標記,有效批量大小為200萬個標記,總共使用了200億個標記(約4個週期)。使用餘弦學習率調度,熱身500步,衰減到峰值學習率的3%,峰值學習率設為1e - 4。其他超參數遵循(Touvron et al., 2023)。
評估
在零樣本和少樣本設置下,對生成、多項選擇和分類任務進行評估,使用每個數據集的巴斯克語分區。
測試數據、因素和指標
測試數據
- Belebele (Bandarkar et al.):一個涵蓋122種語言變體的多項選擇機器閱讀理解(MRC)數據集,以5次射擊的方式評估模型。數據卡片
- X - StoryCloze (Lin et al.):由英語StoryCloze數據集專業翻譯為10種非英語語言的版本,是一個常識推理數據集,以零次射擊的方式評估模型。數據卡片
- BasqueGLUE ([Urbizu et al.](https://aclanthology.org/2022.lrec - 1.172.pdf)):巴斯克語的NLU基準,在以下任務上以5次射擊的方式評估模型:[數據卡片](https://huggingface.co/datasets/orai - nlp/basqueGLUE)
- BEC2016eu:關於2016年巴斯克選舉活動推文的情感分析。
- VaxxStance:關於反疫苗運動推文的立場檢測。
- BTHCv2:新聞摘錄的主題分類,有12個類別。
- EpecKorrefBin:類似於WSC的指代檢測任務。
- QNLIeu:基於巴斯克語維基百科構建的問答NLI。
- WiCeu:巴斯克語的上下文單詞任務。
- EusProficiency (Etxaniz et al., 2024):包含5169個來自過去EGA考試的不同主題練習,是巴斯克語官方C1級能力證書考試。數據卡片
- EusReading (Etxaniz et al., 2024):包含352個閱讀理解練習,來自同一組過去的EGA考試。數據卡片
- EusTrivia (Etxaniz et al., 2024):包含1715個來自多個在線來源的瑣事問題,56.3%的問題是小學水平(3 - 6年級),其餘被認為具有挑戰性。數據卡片
- EusExams (Etxaniz et al., 2024):是為巴斯克幾個機構的公共服務考試準備的測試集合,包括公共衛生系統Osakidetza、巴斯克政府、畢爾巴鄂和加斯泰茲市議會以及巴斯克大學(UPV/EHU)。數據卡片
指標
大多數任務使用準確率,因為它們是多項選擇題。對於其他任務,特別是BasqueGLUE基準的任務,使用以下指標:
- 微觀F1:BEC2016 - eu和BHTCv2
- 宏觀F1:VaxxStance(支持和反對)
評估結果
使用Eleuther AI的LM評估工具庫評估模型。要重現結果,請遵循Latxa的[Github倉庫](https://github.com/hitz - zentroa/latxa?tab=readme - ov - file#evaluation)中的說明。
模型 | 規模 | XStory | Belebele | BasGLUE | EusProf | EusRead | EusTrivia | EusExams | 平均 |
---|---|---|---|---|---|---|---|---|---|
隨機 | 50.00 | 25.00 | 37.50 | 25.00 | 25.83 | 26.55 | 25.00 | 30.70 | |
GPT 3.5 Turbo | n/a | -- | 57.33 | 48.62 | 31.24 | 36.65 | 46.71 | 42.42 | -- |
GPT 4 Turbo | n/a | -- | 90.67 | 62.90 | 56.70 | 75.85 | 73.12 | 70.22 | -- |
XGLM | 7B | 57.71 | 23.88 | 41.47 | 22.96 | 24.43 | 26.53 | 24.59 | 32.51 |
BLOOM | 7B | 57.18 | 27.00 | 40.17 | 25.34 | 28.41 | 27.17 | 25.07 | 33.86 |
Mistral | 7B | 51.09 | 38.89 | 39.22 | 25.01 | 29.26 | 34.58 | 32.15 | 35.94 |
Llama 2 | 7B | 50.43 | 26.22 | 38.20 | 24.09 | 27.27 | 29.50 | 28.84 | 32.51 |
Latxa v1.1 | 7B | 65.45 | 37.33 | 52.56 | 30.26 | 25.00 | 42.16 | 33.82 | 40.94 |
mGPT | 13B | 55.39 | 25.00 | 37.56 | 25.00 | 24.15 | 27.17 | 25.73 | 32.14 |
Llama 2 | 13B | 50.63 | 32.00 | 38.98 | 25.90 | 28.98 | 33.53 | 29.66 | 34.36 |
Latxa v1.1 | 13B | 66.51 | 53.89 | 53.36 | 44.11 | 32.67 | 56.38 | 43.66 | 50.08 |
Mixtral | 8x7B | 52.55 | 50.44 | 45.00 | 26.43 | 37.50 | 42.51 | 39.87 | 41.97 |
Yi | 34B | 52.22 | 54.56 | 43.90 | 27.30 | 34.66 | 42.57 | 39.68 | 42.05 |
Llama 2 | 70B | 51.62 | 33.56 | 42.55 | 24.16 | 27.84 | 38.43 | 33.08 | 35.47 |
Latxa v1.1 | 70B | 70.55 | 71.67 | 59.74 | 60.65 | 50.57 | 62.45 | 51.90 | 61.08 |
環境影響
使用機器學習影響計算器估算碳排放。
模型 | 規模 | 時間(GPU小時) | 碳排放(kg CO₂當量) |
---|---|---|---|
Latxa v1.1 | 7B | 952.5h | 124.47kg |
Latxa v1.1 | 13B | 2,518.0h | 329.06kg |
Latxa v1.1 | 70B | 30,266.0h | 3,955.17kg |
總計 | - | 33,636.5h | 4,408.7kg |
- 硬件類型:HPC集群,4x A100 64Gb節點
- 使用時間:33,636.5h
- 計算集群:CINECA HPC
- 計算區域:意大利
- 碳排放:4,408.7kg CO₂當量
致謝
這項工作得到了巴斯克政府(IKER - GAITU項目)的部分支持,也得到了數字轉型和公共職能部的部分支持(由歐盟 - 下一代歐盟資助,項目編號2022/TL22/00215335)。模型在CINECA的Leonardo超級計算機上訓練,屬於EuroHPC聯合項目,項目編號EHPC - EXT - 2023E01 - 013。
引用
如需引用我們的工作,請使用以下格式:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
相關鏈接
- 📒 博客文章:Latxa: An Open Language Model and Evaluation Suite for Basque
- 📖 論文:Latxa: An Open Language Model and Evaluation Suite for Basque
- 💻 代碼:[hitz - zentroa/latxa](https://github.com/hitz - zentroa/latxa)



