Latxa-7b-v1.2開源大語言模型 - 支持巴斯克語對話，低資源語言優選

首頁

Latxa 7b V1.2

由HiTZ開發

Latxa是基於LLaMA-2架構的巴斯克語大語言模型，專為低資源語言設計，在42億token的巴斯克語料庫上訓練

大型語言模型

Transformers

支持多種語言#巴斯克語優化 #低資源語言模型 #多任務評估套件

下載量 875

發布時間 : 6/11/2024

模型概述

Latxa系列模型包含7B至70B參數規模，針對巴斯克語優化，在語言理解和生成任務上表現優異，支持英語和巴斯克語

模型特點

低資源語言優化

專門針對巴斯克語等低資源語言設計，填補高低資源語言間的技術鴻溝

高質量語料訓練

使用嚴格篩選的42億token巴斯克語料庫訓練，確保語言質量

多規模可選

提供7B、13B和70B三種參數規模，滿足不同計算需求

開放許可

遵循LLaMA-2許可協議，允許商業和研究用途

模型能力

巴斯克語文本生成

多選問答

閱讀理解

語言理解

英語文本生成（輔助能力）

使用案例

教育

語言能力測試

用於評估巴斯克語C1水平考試題

在EusProficiency數據集上達到30.26%準確率（5樣本）

閱讀理解輔助

幫助學生理解巴斯克語文章內容

在EusReading數據集上達到25%準確率（5樣本）

研究

低資源語言研究

為巴斯克語等低資源語言的大模型研究提供基準

發佈完整工具鏈包括模型、語料庫和評估數據集

🚀 Latxa 7b大語言模型

Latxa是一系列面向巴斯克語的大語言模型，參數範圍從70億到700億。它基於Llama 2，在新的巴斯克語語料庫上繼續預訓練。在評估中，Latxa大幅超越之前的開源模型，在語言能力和理解方面可與GPT - 4 Turbo競爭。模型、預訓練語料庫和評估數據集都在開源許可下公開，便於低資源語言大語言模型的研究。

🚀 快速開始

使用以下代碼開始使用該模型：

from transformers import pipeline

pipe = pipeline("text-generation", model="HiTZ/latxa-7b-v1.2")

text = "Euskara adimen artifizialera iritsi da!"

pipe(text, max_new_tokens=50, num_beams=5)

>> [
 {
  'generated_text': 'Euskara adimen artifizialera iritsi da!\nEuskararen eta adimen artifizialaren arteko harremana aspaldikoa da,'
  ' baina azken urteotan aurrerapauso handiak eman dira arlo horretan'
 }
]

✨ 主要特性

面向巴斯克語：專門為巴斯克語設計，基於Llama 2在新的巴斯克語語料庫上繼續預訓練，提升了對巴斯克語的處理能力。
性能優越：在評估中大幅超越之前的開源模型，在語言能力和理解方面可與GPT - 4 Turbo競爭。
開源可用：模型、預訓練語料庫和評估數據集都在開源許可下公開，便於低資源語言大語言模型的研究。

📦 安裝指南

文檔未提及具體安裝步驟，暫無法提供。

📚 詳細文檔

模型詳情

模型描述

Latxa是基於Meta的[LLaMA模型](https://huggingface.co/meta - llama)的大語言模型家族。當前的大語言模型在英語等資源豐富的語言上表現出色，但在巴斯克語等低資源語言上表現不佳。為克服這些限制，促進基於大語言模型的巴斯克語技術和研究發展，推出了Latxa。它採用與原模型相同的架構，在[Latxa語料庫v1.1](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)上進一步訓練。模型有7B、13B和70B三種規模。

開發者：HiTZ研究中心和IXA研究小組（巴斯克大學UPV/EHU）
模型類型：語言模型
語言：英語、巴斯克語
許可證：llama2
父模型：meta - llama/Llama - 2 - 7b
聯繫方式：hitz@ehu.eus

使用說明

直接使用

Latxa系列模型是預訓練的大語言模型，未進行特定任務或指令微調。可以通過提示執行特定任務，也可進一步微調用於特定用例。

超出適用範圍的使用

模型未針對遵循指令或作為聊天助手進行微調，不建議此類使用。

偏差、風險和限制

為減少潛在的不良或有害內容，Latxa在精心選擇和處理的數據上訓練，數據主要來自當地媒體、國家/地區報紙、百科全書和博客。但模型基於LLaMA模型，可能存在相同的偏差、風險和限制。更多信息請參閱LLaMA的《道德考量和限制》。

訓練詳情

訓練數據

訓練語料庫結合了各種現有數據集和新發布的數據集。構建語料庫時優先考慮質量，採用高質量數據源，並進行了徹底的去重和過濾。總共使用了41.7億個標記的語料庫進行訓練。更多細節見[Latxa語料庫](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)數據集卡片。此外，還隨機選取了Pile數據集中的50萬份英語文檔，以避免災難性遺忘。

訓練過程

使用[GPT - Neox](https://github.com/EleutherAI/gpt - neox)庫進行訓練。利用位於意大利的CINECA HPC Leonardo計算集群，該集群有3456個節點，每個節點包含4個定製的A100 64Gb GPU。模型訓練了10000步，序列長度為4096個標記，有效批量大小為200萬個標記，總共使用了200億個標記（約4個週期）。使用餘弦學習率調度，熱身500步，衰減到峰值學習率的3%，峰值學習率設為1e - 4。其他超參數遵循(Touvron et al., 2023)。

評估

在零樣本和少樣本設置下，對生成、多項選擇和分類任務進行評估，使用每個數據集的巴斯克語分區。

測試數據、因素和指標

測試數據

Belebele (Bandarkar et al.)：一個涵蓋122種語言變體的多項選擇機器閱讀理解（MRC）數據集，以5次射擊的方式評估模型。數據卡片
X - StoryCloze (Lin et al.)：由英語StoryCloze數據集專業翻譯為10種非英語語言的版本，是一個常識推理數據集，以零次射擊的方式評估模型。數據卡片
BasqueGLUE ([Urbizu et al.](https://aclanthology.org/2022.lrec - 1.172.pdf))：巴斯克語的NLU基準，在以下任務上以5次射擊的方式評估模型：[數據卡片](https://huggingface.co/datasets/orai - nlp/basqueGLUE)
- BEC2016eu：關於2016年巴斯克選舉活動推文的情感分析。
- VaxxStance：關於反疫苗運動推文的立場檢測。
- BTHCv2：新聞摘錄的主題分類，有12個類別。
- EpecKorrefBin：類似於WSC的指代檢測任務。
- QNLIeu：基於巴斯克語維基百科構建的問答NLI。
- WiCeu：巴斯克語的上下文單詞任務。
EusProficiency (Etxaniz et al., 2024)：包含5169個來自過去EGA考試的不同主題練習，是巴斯克語官方C1級能力證書考試。數據卡片
EusReading (Etxaniz et al., 2024)：包含352個閱讀理解練習，來自同一組過去的EGA考試。數據卡片
EusTrivia (Etxaniz et al., 2024)：包含1715個來自多個在線來源的瑣事問題，56.3%的問題是小學水平（3 - 6年級），其餘被認為具有挑戰性。數據卡片
EusExams (Etxaniz et al., 2024)：是為巴斯克幾個機構的公共服務考試準備的測試集合，包括公共衛生系統Osakidetza、巴斯克政府、畢爾巴鄂和加斯泰茲市議會以及巴斯克大學（UPV/EHU）。數據卡片

指標

大多數任務使用準確率，因為它們是多項選擇題。對於其他任務，特別是BasqueGLUE基準的任務，使用以下指標：

微觀F1：BEC2016 - eu和BHTCv2
宏觀F1：VaxxStance（支持和反對）

評估結果

使用Eleuther AI的LM評估工具庫評估模型。要重現結果，請遵循Latxa的[Github倉庫](https://github.com/hitz - zentroa/latxa?tab=readme - ov - file#evaluation)中的說明。

模型	規模	XStory	Belebele	BasGLUE	EusProf	EusRead	EusTrivia	EusExams	平均
隨機		50.00	25.00	37.50	25.00	25.83	26.55	25.00	30.70
GPT 3.5 Turbo	n/a	--	57.33	48.62	31.24	36.65	46.71	42.42	--
GPT 4 Turbo	n/a	--	90.67	62.90	56.70	75.85	73.12	70.22	--
XGLM	7B	57.71	23.88	41.47	22.96	24.43	26.53	24.59	32.51
BLOOM	7B	57.18	27.00	40.17	25.34	28.41	27.17	25.07	33.86
Mistral	7B	51.09	38.89	39.22	25.01	29.26	34.58	32.15	35.94
Llama 2	7B	50.43	26.22	38.20	24.09	27.27	29.50	28.84	32.51
Latxa v1.1	7B	65.45	37.33	52.56	30.26	25.00	42.16	33.82	40.94
mGPT	13B	55.39	25.00	37.56	25.00	24.15	27.17	25.73	32.14
Llama 2	13B	50.63	32.00	38.98	25.90	28.98	33.53	29.66	34.36
Latxa v1.1	13B	66.51	53.89	53.36	44.11	32.67	56.38	43.66	50.08
Mixtral	8x7B	52.55	50.44	45.00	26.43	37.50	42.51	39.87	41.97
Yi	34B	52.22	54.56	43.90	27.30	34.66	42.57	39.68	42.05
Llama 2	70B	51.62	33.56	42.55	24.16	27.84	38.43	33.08	35.47
Latxa v1.1	70B	70.55	71.67	59.74	60.65	50.57	62.45	51.90	61.08

環境影響

使用機器學習影響計算器估算碳排放。

模型	規模	時間（GPU小時）	碳排放（kg CO₂當量）
Latxa v1.1	7B	952.5h	124.47kg
Latxa v1.1	13B	2,518.0h	329.06kg
Latxa v1.1	70B	30,266.0h	3,955.17kg
總計	-	33,636.5h	4,408.7kg

硬件類型：HPC集群，4x A100 64Gb節點
使用時間：33,636.5h
計算集群：CINECA HPC
計算區域：意大利
碳排放：4,408.7kg CO₂當量

致謝

這項工作得到了巴斯克政府（IKER - GAITU項目）的部分支持，也得到了數字轉型和公共職能部的部分支持（由歐盟 - 下一代歐盟資助，項目編號2022/TL22/00215335）。模型在CINECA的Leonardo超級計算機上訓練，屬於EuroHPC聯合項目，項目編號EHPC - EXT - 2023E01 - 013。

引用

如需引用我們的工作，請使用以下格式：

@misc{etxaniz2024latxa,
      title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque}, 
      author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
      year={2024},
      eprint={2403.20266},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}