🚀 CroissantLLM - 基礎版 (190k步,最終版本)
CroissantLLM基礎版是CroissantLLM項目的一部分,對應190k步(2.99T)標記後的檢查點。該模型旨在為研究和工業界提供一個高性能、完全開源的雙語模型,可在消費級本地硬件上快速運行。
若要體驗最終模型,建議使用聊天版本:CroissantLLMChat-v0.1。
相關論文:https://arxiv.org/abs/2402.00786
📚 詳細文檔
摘要
我們推出了CroissantLLM,這是一個基於3T英語和法語標記進行預訓練的13億參數語言模型。其目標是為研究和工業界帶來一個高性能、完全開源的雙語模型,該模型能夠在消費級本地硬件上快速運行。
為此,我們開創了一種訓練內在雙語模型的方法,採用1:1的英法預訓練數據比例、自定義分詞器和雙語微調數據集。我們發佈了訓練數據集,其中特別包含一個經過人工精心策劃、高質量且多樣化數據源的法語子集。
為了評估模型在英語之外的性能,我們精心設計了一個全新的基準測試FrenchBench,它由一系列分類和生成任務組成,涵蓋了模型在法語方面性能的各個不同維度。此外,基於透明度原則併為了促進大語言模型的進一步研究,我們發佈了代碼庫、數十個不同模型大小、訓練數據分佈和訓練步驟的檢查點,以及微調後的聊天模型和強大的翻譯模型。我們通過FMTI框架對模型進行評估,驗證了81%的透明度標準,遠遠超過了即使是大多數開源項目的得分。
這項工作豐富了自然語言處理領域的研究,打破了以往以英語為中心的研究模式,有助於加深我們對語言模型中多語言性的理解。
引用
如果您使用了我們的工作,請按照以下格式進行引用:
@misc{faysse2024croissantllm,
title={CroissantLLM: A Truly Bilingual French-English Language Model},
author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2402.00786},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
💻 使用示例
基礎用法
此模型為基礎模型,即未針對聊天功能進行微調,使用少樣本提示策略時效果最佳。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))
📄 許可證
本項目採用MIT許可證。
📊 信息表格
屬性 |
詳情 |
模型類型 |
文本生成 |
訓練數據 |
cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset |
支持語言 |
法語、英語 |
標籤 |
法律、代碼、文本生成推理、藝術 |