🚀 羊角麵包大語言模型聊天版(190k步 + 聊天功能)
本模型是羊角麵包大語言模型(CroissantLLM)計劃的一部分,對應於190k步(2.99萬億)標記後的檢查點,以及最後的聊天微調階段。
相關論文鏈接
為獲得最佳性能,應使用0.3或更高的溫度參數,並使用以下確切模板:
chat = [
{"role": "user", "content": "Que puis-je faire à Marseille en hiver?"},
]
chat_input = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
對應於:
chat_input = """<|im_start|>user
{USER QUERY}<|im_end|>
<|im_start|>assistant\n"""
✨ 主要特性
我們推出了羊角麵包大語言模型(CroissantLLM),這是一個基於3萬億英語和法語標記進行預訓練的13億參數語言模型,旨在為研究和工業界帶來一個高性能、完全開源的雙語模型,該模型可在消費級本地硬件上快速運行。為此,我們開創了一種方法,以1:1的英法預訓練數據比例、自定義分詞器和雙語微調數據集來訓練本質上的雙語模型。我們發佈了訓練數據集,其中特別包含一個經過人工精心策劃、高質量且多樣化數據源的法語子集。為評估模型在英語以外的性能,我們精心設計了一個全新的基準測試——法語基準測試(FrenchBench),它由一系列分類和生成任務組成,涵蓋了模型在法語方面性能的各個不同方面。此外,基於透明度原則併為了促進大語言模型的進一步研究,我們發佈了代碼庫、數十個不同模型大小、訓練數據分佈和訓練步驟的檢查點,以及微調後的聊天模型和強大的翻譯模型。我們通過FMTI框架評估了我們的模型,並驗證了81%的透明度標準,遠遠超過了即使是大多數開源項目的得分。這項工作豐富了自然語言處理領域,擺脫了以往以英語為中心的研究,從而加深了我們對語言模型中多語言能力的理解。
🚀 快速開始
本模型是一個聊天模型,即針對聊天功能進行了微調,使用提供的模板時效果最佳。
基礎用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "croissantllm/CroissantLLMChat-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
generation_args = {
"max_new_tokens": 256,
"do_sample": True,
"temperature": 0.3,
"top_p": 0.90,
"top_k": 40,
"repetition_penalty": 1.05,
"eos_token_id": [tokenizer.eos_token_id, 32000],
}
chat = [
{"role": "user", "content": "Qui est le président francais actuel ?"},
]
chat_input = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(chat_input, return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, **generation_args)
print(tokenizer.decode(tokens[0]))
print([(tokenizer.decode([tok]), tok) for tok in tokens[0].tolist()])
🔧 技術細節
模型侷限性
評估結果表明,該模型在同規模模型中表現出色,在基於寫作的任務和內部知識方面表現良好,在翻譯任務中表現非常出色。然而,羊角麵包大語言模型的小尺寸限制了其執行更復雜推理任務的能力,至少在其通用基礎版本或聊天模型版本的零樣本或少樣本情況下是如此。這與其他同規模模型一致,凸顯了在更抽象任務中模型規模的重要性。
知識截止日期
模型訓練數據集的數據截止日期對應於2023年11月的維基百科轉儲。這實際上是我們基礎模型的知識截止日期,儘管許多信息的日期更早。可以通過持續預訓練或後續微調來訓練更新版本。
多語言性能
羊角麵包大語言模型主要是一個法語和英語模型。代碼生成性能相對有限,儘管SlimPajama訓練集中包含了一些其他語言的數據,但不能期望該模型在其他語言上開箱即用的性能,不過一些歐洲語言的表現確實相當不錯。
幻覺問題
羊角麵包大語言模型可能會產生幻覺並輸出事實錯誤的數據,尤其是在處理複雜主題時。考慮到模型規模較小,這是可以預料的,並且儘管除了MT-Bench實驗外沒有進行其他定量評估,但幻覺率似乎低於大多數同規模模型。
📄 許可證
本模型採用MIT許可證。
📦 數據集
- croissantllm/croissant_dataset
- croissantllm/CroissantLLM - 2201 - sft
- cerebras/SlimPajama - 627B
- uonlp/CulturaX
- pg19
- bigcode/starcoderdata
📚 引用
我們的工作可以按以下方式引用:
@misc{faysse2024croissantllm,
title={CroissantLLM: A Truly Bilingual French-English Language Model},
author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2402.00786},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
屬性 |
詳情 |
模型類型 |
文本生成 |
支持語言 |
法語、英語 |
適用領域 |
法律、代碼、文本生成推理、藝術 |