🚀 CroissantLLM - Base GGUF (190k steps, Final version)
CroissantLLM是一個高性能、完全開源的雙語語言模型,它在3萬億英法雙語語料上進行了預訓練,能夠在消費級本地硬件上快速運行,為研究和工業界帶來了新的選擇。
🚀 快速開始
本模型為基礎模型,即未針對聊天功能進行微調,採用少樣本提示策略時效果最佳。你可以通過以下代碼使用該模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))
inputs = tokenizer("Capitales: France -> Paris, Italie -> Rome, Allemagne -> Berlin, Espagne ->", return_tensors="pt", add_special_tokens=True).to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60)
print(tokenizer.decode(tokens[0]))
✨ 主要特性
- 雙語能力:開創性地採用英法1:1的預訓練數據比例、自定義分詞器和雙語微調數據集來訓練本質上的雙語模型。
- 高質量數據:發佈的訓練數據集包含手動策劃、高質量且多樣的法語數據來源。
- 性能評估:創建了新的基準測試FrenchBench,用於評估模型在法語中的各種分類和生成任務的性能。
- 高度透明:發佈了代碼庫、不同模型大小、訓練數據分佈和訓練步驟的數十個檢查點,以及微調後的聊天模型和強大的翻譯模型。通過FMTI框架評估,驗證了81%的透明度標準,遠超大多數開源項目。
📦 相關資源
📚 詳細文檔
摘要
我們推出了CroissantLLM,這是一個13億參數的語言模型,在3萬億英法雙語語料上進行了預訓練。其目標是為研究和工業界提供一個高性能、完全開源的雙語模型,使其能夠在消費級本地硬件上快速運行。為此,我們率先採用了英法1:1的預訓練數據比例、自定義分詞器和雙語微調數據集來訓練本質上的雙語模型。我們發佈了訓練數據集,其中特別包含了一個手動策劃、高質量且多樣的法語數據來源。為了評估模型在英語之外的性能,我們創建了一個新的基準測試FrenchBench,它由一系列分類和生成任務組成,涵蓋了模型在法語中性能的各個方面。此外,為了保持透明度並促進大語言模型的進一步研究,我們發佈了代碼庫、不同模型大小、訓練數據分佈和訓練步驟的數十個檢查點,以及微調後的聊天模型和強大的翻譯模型。我們通過FMTI框架對模型進行了評估,驗證了81%的透明度標準,遠超大多數開源項目。這項工作豐富了自然語言處理領域,打破了以往以英語為中心的研究模式,加深了我們對語言模型中多語言性的理解。
引用
如需引用我們的工作,請使用以下格式:
@misc{faysse2024croissantllm,
title={CroissantLLM: A Truly Bilingual French-English Language Model},
author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2402.00786},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用MIT許可證。
📋 模型信息
屬性 |
詳情 |
模型類型 |
文本生成模型 |
訓練數據 |
cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset |
支持語言 |
法語、英語 |
任務類型 |
文本生成 |
相關標籤 |
法律、代碼、文本生成推理、藝術 |