模型概述
模型特點
模型能力
使用案例
🚀 巧克力羊駝(ChocoLlama)
基於Llama-2/3的荷蘭語語言模型家族,為荷蘭語自然語言處理帶來新的可能
巧克力羊駝(ChocoLlama)
基於Llama-2/3的荷蘭語語言模型家族🚀 快速開始
巧克力羊駝2代7B基礎版(ChocoLlama-2-7B-base):入門指南
我們在此推出 巧克力羊駝2代7B基礎版(ChocoLlama-2-7B-base),這是Meta公司Llama-2-7b的語言適配版本,使用LoRa在320億個荷蘭語Llama-2標記(104GB)上進行了微調。請注意,這是一個基礎模型,未針對對話行為進行優化。如果您的用例需要對話功能,我們建議您在自己的荷蘭語數據上對該模型進行微調,或者使用該模型的指令微調版本 巧克力羊駝2代7B指令版(ChocoLlama-2-7B-instruct)。
使用以下代碼開始使用該模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('ChocoLlama/ChocoLlama-2-7B-base')
model = AutoModelForCausalLM.from_pretrained('ChocoLlama/ChocoLlama-2-7B-base')
✨ 主要特性
巧克力羊駝(ChocoLlama)是一系列專門為荷蘭語適配的開源大語言模型(LLM),在其權重級別上推動了荷蘭語開源大語言模型的發展。
我們提供了6種變體(其中3種是基礎模型,3種是指令微調模型):
- 巧克力羊駝2代7B基礎版(ChocoLlama-2-7B-base) (鏈接):Meta公司Llama-2-7b的語言適配版本,使用LoRa在320億個荷蘭語Llama-2標記(104GB)上進行了微調。
- 巧克力羊駝2代7B指令版(ChocoLlama-2-7B-instruct) (鏈接):巧克力羊駝2代7B基礎版的指令微調版本,在一系列荷蘭語指令微調數據集上進行了微調,使用了監督微調(SFT)和直接偏好優化(DPO)。
- 巧克力羊駝2代7B標記轉換基礎版(ChocoLlama-2-7B-tokentrans-base) (鏈接):Meta公司Llama-2-7b的語言適配版本,使用了基於荷蘭語RoBERTa的標記器。該模型的標記嵌入使用了Remy等人提出的標記轉換算法進行了重新初始化。隨後,該模型在與巧克力羊駝2代7B基礎版相同的荷蘭語數據集上進行了微調,同樣使用了LoRa。
- 巧克力羊駝2代7B標記轉換指令版(ChocoLlama-2-7B-tokentrans-instruct) (鏈接):巧克力羊駝2代7B標記轉換基礎版的指令微調版本,在與巧克力羊駝2代7B指令版相同的數據集上進行了微調,同樣使用了監督微調(SFT)和直接偏好優化(DPO)。
- 羊駝3代巧克力羊駝8B基礎版(Llama-3-ChocoLlama-8B-base) (鏈接):Meta公司Llama-8-8B的語言適配版本,在與巧克力羊駝2代7B基礎版相同的荷蘭語數據集上進行了微調,同樣使用了LoRa。
- 羊駝3代巧克力羊駝指令版(Llama-3-ChocoLlama-instruct) (鏈接):羊駝3代巧克力羊駝8B基礎版的指令微調版本,在與巧克力羊駝2代7B指令版相同的數據集上進行了微調,同樣使用了監督微調(SFT)和直接偏好優化(DPO)。
有關所有模型的基準測試結果,包括與它們的基礎模型和其他荷蘭語大語言模型的比較,請參考我們的論文此處。
模型描述
屬性 | 詳情 |
---|---|
開發者 | Matthieu Meeus、Anthony Rathé |
資助方 | 佛蘭芒超級計算機中心(Vlaams Supercomputer Centrum),通過約40000個GPU小時(NVIDIA A100 - 80GB)的資助 |
語言 | 荷蘭語 |
許可證 | Llama - 2社區許可證 |
微調基礎模型 | [Llama - 2 - 7b - hf](https://huggingface.co/meta - llama/Llama - 2 - 7b - hf) |
模型來源
📚 詳細文檔
直接使用
由於這是一個基礎模型,我們不建議直接將其用於您的用例。我們建議您:
- 針對您的特定用例對該模型進行微調。
- 使用該模型的指令微調版本。
下游使用
由於該模型是一個基礎模型,它可以輕鬆適應需要荷蘭語理解和生成的特定用例。我們預計該模型在我們的數據集中明確涵蓋的領域的用例中特別有用,例如荷蘭語職位描述、公司文件和立法的分析和/或生成。
超出適用範圍的使用
- 需要聊天式界面的用例:由於這是一個基礎模型,它不能可靠地用於基於回合的聊天交互。請使用該模型的指令微調版本。
- 需要理解或生成非荷蘭語文本的用例:該模型微調所使用的數據集不包含非荷蘭語數據,因此我們預計對於Llama - 2最初訓練的英語會出現嚴重的災難性遺忘。
偏差、風險和侷限性
我們已盡力在數據集中僅包含廣泛使用的高質量數據。其中一些數據已由原始創建者進行了過濾。然而,我們沒有針對有偏差或其他有害內容對該數據集進行明確的額外過濾。
建議
我們建議您在經過精心策劃的數據上對該模型進行微調,以最大程度地避免產生不良輸出。
🔧 技術細節
訓練數據
我們收集了多樣化的荷蘭語自然語言數據:
- OSCAR數據集:我們的大部分數據來自[OSCAR](https://oscar - corpus.com)的荷蘭語部分(2023年1月版本,基於Common Crawl)。該數據集包含 93GB 文本(約286億個標記)。
- Open Subtitles數據集:我們從電影字幕中收集了荷蘭語文本,重點是荷蘭語電影或帶有荷蘭語字幕的獨特電影。該數據集包含來自 21.4萬個樣本 的 5GB 文本(約15.4億個標記)。
- 古騰堡計劃(Project Gutenberg)數據集:我們使用公共爬蟲從古騰堡計劃下載了 970本完整的荷蘭語書籍。該數據集包含 0.3GB 文本(約9200萬個標記),可在[Hugging Face](https://huggingface.co/datasets/ChocoLlama/gutenberg - dutch)上獲取。
- 維基百科(Wikipedia)數據集:使用2023年3月的維基百科轉儲,我們包含了 2.5GB 文本(約7.69億個標記)。儘管與OSCAR數據集有一些重複,但維基百科的高質量使其值得包含。
- 職位描述(TechWolf)數據集:由TechWolf提供的從公共網站收集的五年內的 75萬個荷蘭語職位描述樣本。該數據集包含 1.5GB 文本(約4.62億個標記)。
- 國家公報(Staatsblad,Bizzy)數據集:來自比利時國家公報的 8萬個法律文件樣本。文件經過OCR處理,並排除了個人數據。該數據集包含 1.4GB 文本(約4.31億個標記),在Bizzy的幫助下收集。
- 佛蘭芒立法(ML6)數據集:通過[開放數據API](https://www.vlaanderen.be/vlaams - parlement/de - vlaamse - codex)獲取的 1.5萬個佛蘭芒立法文件。該數據集包含 0.2GB 文本(約6200萬個標記),在ML6的支持下收集。
訓練過程
該模型使用低秩(LoRa)自適應和可訓練嵌入進行了微調,總共有5.44億個可訓練參數。
訓練超參數
- 訓練模式:bf16非混合精度
- 訓練輪數:1
- LoRa參數:
- R:8
- Alpha:32
- 可訓練模塊:q_proj、v_proj、k_proj、o_proj、gate_proj、up_proj、down_proj、embed_tokens、lm_head
- LoRa丟棄率:0.05
- 學習率:
- 調度器:StepLR
- 步長:6212
- 學習率:0.0003
- Gamma:0.85
- 其他參數:
- 小批量大小:16
- 梯度累積步數:8
- 並行化因子:8
- 權重衰減:0
評估
定量評估
我們在幾個行業標準的荷蘭語基準測試上對我們的模型進行了評估,這些基準測試是從其原始版本翻譯而來的。結果如下表所示,同時還列出了其他幾個著名的荷蘭語模型的結果。
模型 | ARC | HellaSwag | MMLU | TruthfulQA | 平均 |
---|---|---|---|---|---|
羊駝3代巧克力羊駝指令版(Llama - 3 - ChocoLlama - instruct) | 0.48 | 0.66 | 0.49 | 0.49 | 0.53 |
llama - 3 - 8B - rebatch | 0.44 | 0.64 | 0.46 | 0.48 | 0.51 |
llama - 3 - 8B - instruct | 0.47 | 0.59 | 0.47 | 0.52 | 0.51 |
llama - 3 - 8B | 0.44 | 0.64 | 0.47 | 0.45 | 0.5 |
Reynaerde - 7B - Chat | 0.44 | 0.62 | 0.39 | 0.52 | 0.49 |
羊駝3代巧克力羊駝基礎版(Llama - 3 - ChocoLlama - base) | 0.45 | 0.64 | 0.44 | 0.44 | 0.49 |
zephyr - 7b - beta | 0.43 | 0.58 | 0.43 | 0.53 | 0.49 |
geitje - 7b - ultra | 0.40 | 0.66 | 0.36 | 0.49 | 0.48 |
巧克力羊駝2代7B標記轉換指令版(ChocoLlama - 2 - 7B - tokentrans - instruct) | 0.45 | 0.62 | 0.34 | 0.42 | 0.46 |
mistral - 7b - v0.1 | 0.43 | 0.58 | 0.37 | 0.45 | 0.46 |
巧克力羊駝2代7B標記轉換基礎版(ChocoLlama - 2 - 7B - tokentrans - base) | 0.42 | 0.61 | 0.32 | 0.43 | 0.45 |
巧克力羊駝2代7B指令版(ChocoLlama - 2 - 7B - instruct) | 0.36 | 0.57 | 0.33 | 0.45 | 0.43 |
巧克力羊駝2代7B基礎版(ChocoLlama - 2 - 7B - base) | 0.35 | 0.56 | 0.31 | 0.43 | 0.41 |
llama - 2 - 7b - chat - hf | 0.36 | 0.49 | 0.33 | 0.44 | 0.41 |
llama - 2 - 7b - hf | 0.36 | 0.51 | 0.32 | 0.41 | 0.40 |
平均而言,羊駝3代巧克力羊駝指令版在這些基準測試中超越了之前的最優水平。
定性評估
在我們的論文中,我們還對所有模型進行了額外的定性評估 - 我們通過經驗發現這種評估更可靠。有關詳細信息,請參考論文和我們的基準測試[巧克力羊駝基準測試(ChocoLlama - Bench)](https://huggingface.co/datasets/ChocoLlama/ChocoLlama - Bench)。
計算基礎設施
所有巧克力羊駝模型都在佛蘭芒超級計算機中心(VSC)提供的計算集群上進行了訓練。我們使用了8到16個具有80GB顯存的NVIDIA A100 GPU。
📄 許可證
本模型使用 Llama - 2社區許可證。
引用
如果您認為本項目對您的工作有幫助,請引用我們的論文:
@article{meeus2024chocollama,
title={ChocoLlama: Lessons Learned From Teaching Llamas Dutch},
author={Meeus, Matthieu and Rath{\'e}, Anthony and Remy, Fran{\c{c}}ois and Delobelle, Pieter and Decorte, Jens - Joris and Demeester, Thomas},
journal={arXiv preprint arXiv:2412.07633},
year={2024}
}



