CroissantLLMChat-v0.1開源語言模型 - 適合消費級硬件的英法雙語流暢處理

首頁

Croissantllmchat V0.1

由croissantllm開發

CroissantLLM是一個基於3T英法雙語token訓練的13億參數語言模型，專為消費級硬件設計，支持流暢的雙語處理。

大型語言模型

Transformers

支持多種語言開源協議:MIT #英法雙語 #消費級硬件優化 #法律文本生成

下載量 3,812

發布時間 : 1/24/2024

模型概述

該模型是CroissantLLM計劃的一部分，經過19萬步訓練（2.99T tokens）及最終聊天微調階段，支持法語和英語的文本生成任務。

模型特點

雙語支持

採用1:1英法預訓練數據配比，專門優化了法語和英語的處理能力。

高效運行

設計用於在消費級硬件上流暢運行，適合研究和工業應用。

高質量法語語料

訓練數據中包含經人工篩選的高質量多樣化法語語料。

透明開源

公開了代碼庫、多個檢查點、微調聊天模型及翻譯模型，透明度標準達標率達81%。

模型能力

文本生成

雙語翻譯

聊天對話

代碼生成

使用案例

語言處理

法語問答

回答關於法國文化、歷史或時事的問題。

在寫作類任務和內部知識檢索上表現良好。

英法翻譯

進行英語和法語之間的翻譯任務。

翻譯任務表現尤為突出。

代碼輔助

代碼生成

生成簡單的代碼片段。

代碼能力有限，適合基礎代碼生成。

🚀 羊角麵包大語言模型聊天版（190k步 + 聊天功能）

本模型是羊角麵包大語言模型（CroissantLLM）計劃的一部分，對應於190k步（2.99萬億）標記後的檢查點，以及最後的聊天微調階段。

相關論文鏈接

為獲得最佳性能，應使用0.3或更高的溫度參數，並使用以下確切模板：

chat = [
   {"role": "user", "content": "Que puis-je faire à Marseille en hiver?"},
]

chat_input = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

對應於：

chat_input = """<|im_start|>user
{USER QUERY}<|im_end|>
<|im_start|>assistant\n"""

✨ 主要特性

我們推出了羊角麵包大語言模型（CroissantLLM），這是一個基於3萬億英語和法語標記進行預訓練的13億參數語言模型，旨在為研究和工業界帶來一個高性能、完全開源的雙語模型，該模型可在消費級本地硬件上快速運行。為此，我們開創了一種方法，以1:1的英法預訓練數據比例、自定義分詞器和雙語微調數據集來訓練本質上的雙語模型。我們發佈了訓練數據集，其中特別包含一個經過人工精心策劃、高質量且多樣化數據源的法語子集。為評估模型在英語以外的性能，我們精心設計了一個全新的基準測試——法語基準測試（FrenchBench），它由一系列分類和生成任務組成，涵蓋了模型在法語方面性能的各個不同方面。此外，基於透明度原則併為了促進大語言模型的進一步研究，我們發佈了代碼庫、數十個不同模型大小、訓練數據分佈和訓練步驟的檢查點，以及微調後的聊天模型和強大的翻譯模型。我們通過FMTI框架評估了我們的模型，並驗證了81%的透明度標準，遠遠超過了即使是大多數開源項目的得分。這項工作豐富了自然語言處理領域，擺脫了以往以英語為中心的研究，從而加深了我們對語言模型中多語言能力的理解。

🚀 快速開始

本模型是一個聊天模型，即針對聊天功能進行了微調，使用提供的模板時效果最佳。

基礎用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMChat-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

generation_args = {
    "max_new_tokens": 256,
    "do_sample": True,
    "temperature": 0.3,
    "top_p": 0.90,
    "top_k": 40,
    "repetition_penalty": 1.05,
    "eos_token_id": [tokenizer.eos_token_id, 32000],
}

chat = [
   {"role": "user", "content": "Qui est le président francais actuel ?"},
]

chat_input = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

inputs = tokenizer(chat_input, return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, **generation_args)

print(tokenizer.decode(tokens[0]))
# print tokens individually
print([(tokenizer.decode([tok]), tok) for tok in tokens[0].tolist()])

🔧 技術細節

模型侷限性

評估結果表明，該模型在同規模模型中表現出色，在基於寫作的任務和內部知識方面表現良好，在翻譯任務中表現非常出色。然而，羊角麵包大語言模型的小尺寸限制了其執行更復雜推理任務的能力，至少在其通用基礎版本或聊天模型版本的零樣本或少樣本情況下是如此。這與其他同規模模型一致，凸顯了在更抽象任務中模型規模的重要性。

知識截止日期

模型訓練數據集的數據截止日期對應於2023年11月的維基百科轉儲。這實際上是我們基礎模型的知識截止日期，儘管許多信息的日期更早。可以通過持續預訓練或後續微調來訓練更新版本。

多語言性能

羊角麵包大語言模型主要是一個法語和英語模型。代碼生成性能相對有限，儘管SlimPajama訓練集中包含了一些其他語言的數據，但不能期望該模型在其他語言上開箱即用的性能，不過一些歐洲語言的表現確實相當不錯。

幻覺問題

羊角麵包大語言模型可能會產生幻覺並輸出事實錯誤的數據，尤其是在處理複雜主題時。考慮到模型規模較小，這是可以預料的，並且儘管除了MT-Bench實驗外沒有進行其他定量評估，但幻覺率似乎低於大多數同規模模型。

📄 許可證

本模型採用MIT許可證。

📦 數據集

croissantllm/croissant_dataset
croissantllm/CroissantLLM - 2201 - sft
cerebras/SlimPajama - 627B
uonlp/CulturaX
pg19
bigcode/starcoderdata

📚 引用

我們的工作可以按以下方式引用：

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}