CroissantLLMBase開源語言模型 - 免費使用英法雙語高性能預訓練模型

首頁

Croissantllmbase

由croissantllm開發

CroissantLLM是一個基於3萬億英法雙語token預訓練的13億參數語言模型，旨在為研究和工業社區提供高性能、完全開源的雙語模型。

大型語言模型

Transformers

支持多種語言開源協議:MIT #英法雙語生成 #小參數高效推理 #法律代碼雙領域

下載量 901

發布時間 : 1/9/2024

模型概述

CroissantLLM是一個高性能、完全開源的雙語（英語和法語）語言模型，可在消費級本地硬件上流暢運行。模型採用1:1英法預訓練數據比例、定製分詞器以及雙語微調數據集進行本質雙語模型訓練。

模型特點

雙語支持

模型採用1:1英法預訓練數據比例，專門針對英語和法語進行優化。

高性能

模型在消費級本地硬件上也能流暢運行，適合研究和工業應用。

開源透明

模型完全開源，包括代碼庫、檢查點、微調後的聊天模型和優質翻譯模型。

高質量法語數據

訓練數據包含經過人工篩選、高質量且多樣化的法語數據分支。

模型能力

文本生成

雙語翻譯

代碼生成

使用案例

文本生成

雙語翻譯

將英語文本翻譯為法語，或反之。

高質量的翻譯結果，適用於日常和專業場景。

代碼生成

根據提示生成代碼片段。

適用於開發者和研究人員。

研究

多語言模型研究

用於研究語言模型在多語言環境下的表現。

提供豐富的雙語數據和模型檢查點。

🚀 CroissantLLM - 基礎版 (190k步，最終版本)

CroissantLLM基礎版是CroissantLLM項目的一部分，對應190k步（2.99T）標記後的檢查點。該模型旨在為研究和工業界提供一個高性能、完全開源的雙語模型，可在消費級本地硬件上快速運行。

若要體驗最終模型，建議使用聊天版本：CroissantLLMChat-v0.1。

相關論文：https://arxiv.org/abs/2402.00786

📚 詳細文檔

摘要

我們推出了CroissantLLM，這是一個基於3T英語和法語標記進行預訓練的13億參數語言模型。其目標是為研究和工業界帶來一個高性能、完全開源的雙語模型，該模型能夠在消費級本地硬件上快速運行。

為此，我們開創了一種訓練內在雙語模型的方法，採用1:1的英法預訓練數據比例、自定義分詞器和雙語微調數據集。我們發佈了訓練數據集，其中特別包含一個經過人工精心策劃、高質量且多樣化數據源的法語子集。

為了評估模型在英語之外的性能，我們精心設計了一個全新的基準測試FrenchBench，它由一系列分類和生成任務組成，涵蓋了模型在法語方面性能的各個不同維度。此外，基於透明度原則併為了促進大語言模型的進一步研究，我們發佈了代碼庫、數十個不同模型大小、訓練數據分佈和訓練步驟的檢查點，以及微調後的聊天模型和強大的翻譯模型。我們通過FMTI框架對模型進行評估，驗證了81%的透明度標準，遠遠超過了即使是大多數開源項目的得分。

這項工作豐富了自然語言處理領域的研究，打破了以往以英語為中心的研究模式，有助於加深我們對語言模型中多語言性的理解。

引用

如果您使用了我們的工作，請按照以下格式進行引用：

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

💻 使用示例

基礎用法

此模型為基礎模型，即未針對聊天功能進行微調，使用少樣本提示策略時效果最佳。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))

📄 許可證

本項目採用MIT許可證。

📊 信息表格

屬性	詳情
模型類型	文本生成
訓練數據	cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset
支持語言	法語、英語
標籤	法律、代碼、文本生成推理、藝術