🚀 HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8
Latxa 3.1 70B Instruct 是基於 Llama-3.1 (Instruct) 的大語言模型,在巴斯克語語料上進行訓練,能有效提升巴斯克語相關任務的表現,在巴斯克語標準基準測試中表現出色。
⚠️ 重要提示
這是原始 Latxa 3.1 70B Instruct 的 FP8 量化版本。
⚠️ 重要提示
該模型仍在開發中。更多訓練細節將在不久後隨相應的研究論文一同發佈。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主要特性
- 語言適配:基於 Meta 的 LLaMA 模型,針對巴斯克語進行語言適配訓練,能有效提升巴斯克語任務的性能。
- 指令遵循:經過訓練,能夠遵循指令,可作為聊天助手使用。
- 性能優越:在巴斯克語標準基準測試中,大幅超越 Llama-3.1-Instruct,在聊天對話中表現出色。
📦 安裝指南
文檔未提及安裝步驟,可參考 transformers
庫的官方安裝文檔進行安裝。
💻 使用示例
基礎用法
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
高級用法
文檔未提供高級用法示例,可根據具體需求進一步探索模型的功能。
📚 詳細文檔
模型詳情
模型描述
Latxa 是基於 Meta 的 LLaMA 模型的大語言模型家族。當前的大語言模型在英語等高資源語言上表現出色,但在巴斯克語等低資源語言上的表現接近隨機猜測。這些限制在數字發展方面擴大了高資源語言和低資源語言之間的差距。我們推出 Latxa 以克服這些限制,並促進基於大語言模型的巴斯克語技術和研究的發展。Latxa 模型遵循與其原始對應模型相同的架構,並在 Latxa 語料庫 v1.1 上進行了進一步訓練,這是一個高質量的巴斯克語語料庫。
屬性 |
詳情 |
開發者 |
HiTZ 研究中心和 IXA 研究小組(巴斯克大學 UPV/EHU) |
模型類型 |
語言模型 |
語言 |
巴斯克語(eu) |
許可證 |
llama3.1 |
父模型 |
meta-llama/Llama-3.1-70B-Instruct |
聯繫方式 |
hitz@ehu.eus |
使用場景
直接使用
Latxa Instruct 模型經過訓練,可遵循指令或作為聊天助手使用。
非預期使用
該模型不應用於惡意活動,如傷害他人或侵犯人權。任何下游應用都必須遵守現行法律法規。同時,不建議在未進行適當風險評估和緩解的情況下在生產環境中進行不負責任的使用。
偏差、風險和限制
為了減少潛在的令人不安或有害的內容,Latxa 在精心選擇和處理的數據上進行了訓練,這些數據主要來自當地媒體、國家/地區報紙、百科全書和博客(見 Latxa 語料庫 v1.1)。儘管如此,該模型基於 Llama 3.1 模型,可能存在相同的偏差、風險和限制。有關更多信息,請參閱 Llama 的道德考量和限制。
訓練詳情
更多訓練細節將在不久後隨相應的研究論文一同發佈。
評估
測試數據、因素和指標
測試數據
- Belebele(Bandarkar 等人):Belebele 是一個涵蓋 122 種語言變體的多項選擇機器閱讀理解(MRC)數據集。我們以 5 次提示的方式對模型進行了評估。
- 數據卡片:https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze(Lin 等人):XStoryCloze 是將英語 StoryCloze 數據集專業翻譯為 10 種非英語語言的版本。Story Cloze 是一個常識推理數據集,包括為一個四句故事選擇正確的結尾。我們以 5 次提示的方式對模型進行了評估。
- 數據卡片:https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency(Etxaniz 等人,2024):EusProficiency 包含來自過去 EGA 考試的 5169 道不同主題的練習題,EGA 考試是巴斯克語官方 C1 級水平證書考試。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading(Etxaniz 等人,2024):EusReading 由來自同一組過去 EGA 考試的 352 道閱讀理解練習題組成。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia(Etxaniz 等人,2024):EusTrivia 由來自多個在線來源的 1715 道瑣事問題組成。其中 56.3% 的問題為小學水平(3 - 6 年級),其餘問題被認為具有挑戰性。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams(Etxaniz 等人,2024):EusExams 是一組為準備巴斯克地區多個機構舉辦的公共服務考試而設計的測試,包括公共衛生系統 Osakidetza、巴斯克政府、畢爾巴鄂和加斯泰茲市議會以及巴斯克大學(UPV/EHU)。
- 數據卡片:https://huggingface.co/datasets/HiTZ/EusExams
指標
由於這些任務被構建為多項選擇題,我們使用準確率作為評估指標。
結果
任務 |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
環境影響
可以使用 機器學習影響計算器 來估算碳排放,該計算器在 Lacoste 等人(2019) 中有所介紹。
- 硬件類型:HPC 集群,4 x A100 64Gb 節點 x64
- 使用時長(總 GPU 小時數):16005.12 小時
- 雲服務提供商:CINECA HPC
- 計算區域:意大利
- 碳排放:1901.41 千克 CO2 當量
致謝
- 這項工作得到了巴斯克政府(IKER - GAITU 項目)的部分支持。
- 也得到了數字轉型和公共職能部的部分支持,該項目由歐盟 - 下一代歐盟資助,項目編號為 2022/TL22/00215335。
- 模型在 CINECA 的 Leonardo 超級計算機上進行訓練,該項目屬於 EuroHPC 聯合項目,項目編號為 EHPC - EXT - 2023E01 - 013。
引用
正式引用即將發佈。在此期間,你可以參考:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}