🚀 HiTZ/Latxa-Llama-3.1-8B-Instruct模型
Latxa 3.1 8B Instruct是Latxa的指令版本。該模型基於Llama-3.1 (Instruct),使用語言適配技術在包含430萬篇文檔和420億個標記的巴斯克語語料庫(Etxaniz等人,2024)上進行訓練(相關論文正在準備中)。初步實驗表明,Latxa 3.1 8B Instruct在巴斯克語標準基準測試中,尤其是在聊天對話方面,大幅優於Llama-3.1-Instruct。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-8B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主要特性
- 性能優越:在巴斯克語標準基準測試和聊天對話中,大幅優於Llama-3.1-Instruct。
- 語言適配:基於巴斯克語語料庫進行訓練,更適合處理巴斯克語數據。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-8B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
高級用法
文檔未提及高級用法代碼示例,故跳過此部分。
📚 詳細文檔
模型詳情
模型描述
Latxa是基於Meta的LLaMA模型的大語言模型(LLM)家族。當前的大語言模型在英語等高資源語言上表現出色,但在巴斯克語等低資源語言上,其性能接近隨機猜測。這些限制在數字發展方面擴大了高資源語言和低資源語言之間的差距。我們推出Latxa以克服這些限制,促進基於大語言模型的巴斯克語技術和研究的發展。Latxa模型遵循與其原始對應模型相同的架構,並在Latxa語料庫v1.1(一個高質量的巴斯克語語料庫)上進行了進一步訓練。
屬性 |
詳情 |
開發者 |
HiTZ研究中心和IXA研究小組(巴斯克大學UPV/EHU) |
模型類型 |
語言模型 |
語言(NLP) |
eu |
許可證 |
llama3.1 |
基礎模型 |
meta-llama/Llama-3.1-8B-Instruct |
聯繫方式 |
hitz@ehu.eus |
使用說明
直接使用
Latxa Instruct模型經過訓練,可以遵循指令或作為聊天助手使用。
非預期使用
該模型不應用於惡意活動,如傷害他人或侵犯人權。任何下游應用都必須遵守現行法律法規。同時,不鼓勵在生產環境中未經適當風險評估和緩解就進行不負責任的使用。
偏差、風險和限制
為了減少潛在的令人不安或有害的內容,Latxa在經過精心選擇和處理的數據上進行了訓練,這些數據主要來自當地媒體、國家/地區報紙、百科全書和博客(見Latxa語料庫v1.1)。儘管如此,該模型基於Llama 3.1模型,可能存在相同的偏差、風險和限制。有關更多信息,請參閱Llama的道德考量和限制。
訓練詳情
⚠️ 重要提示
更多訓練細節將在不久的將來隨相應的研究論文一起發佈。
評估
我們在多項選擇題任務的5次樣本設置下對模型進行了評估。我們使用了每個數據集的巴斯克語分區。競技場結果將在未來發布。
測試數據、因素和指標
測試數據
- Belebele(Bandarkar等人):Belebele是一個涵蓋122種語言變體的多項選擇機器閱讀理解(MRC)數據集。我們以5次樣本的方式對模型進行了評估。
- 數據卡片:https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze(Lin等人):XStoryCloze由英語StoryCloze數據集專業翻譯為10種非英語語言的版本組成。Story Cloze是一個常識推理數據集,包括為一個四句故事選擇正確的結尾。我們以5次樣本的方式對模型進行了評估。
- 數據卡片:https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency(Etxaniz等人,2024):EusProficiency包含來自過去EGA考試(巴斯克語官方C1級水平證書考試)不同主題的5169道練習題。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading(Etxaniz等人,2024):EusReading由來自同一組過去EGA考試的352道閱讀理解練習題(irakurmena)組成。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia(Etxaniz等人,2024):EusTrivia由來自多個在線來源的1715道瑣事問題組成。其中56.3%的問題為初級水平(3 - 6年級),其餘問題被認為具有挑戰性。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams(Etxaniz等人,2024):EusExams是一組為準備巴斯克多個機構(包括公共衛生系統Osakidetza、巴斯克政府、畢爾巴鄂和加斯泰茲市議會以及巴斯克大學(UPV/EHU))舉辦的公共服務考試而設計的測試。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusExams
指標
由於這些任務被設計為多項選擇題,我們使用準確率作為評估指標。
結果
任務 |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
環境影響
可以使用Lacoste等人(2019)提出的機器學習影響計算器來估算碳排放。
屬性 |
詳情 |
硬件類型 |
HPC集群,4 x A100 64Gb節點x32 |
使用時長(總GPU小時) |
2336小時 |
雲服務提供商 |
CINECA HPC |
計算區域 |
意大利 |
碳排放 |
277.52千克CO2當量 |
致謝
這項工作得到了巴斯克政府(IKER-GAITU項目)的部分支持。
它還得到了數字轉型和公共職能部的部分支持 - 由歐盟資助 - 下一代歐盟,項目編號為2022/TL22/00215335。
這些模型在CINECA的Leonardo超級計算機上進行訓練,該項目屬於EuroHPC聯合項目,項目編號為EHPC-EXT-2023E01-013。
引用
即將推出。
同時,您可以參考:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
該模型遵循Llama-3.1許可證,允許商業和研究使用。