🚀 CroissantLLM - Base (190k steps, Final version)
CroissantLLMは、高性能で完全にオープンソースのバイリンガルモデルで、消費者向けのローカルハードウェアでも高速に動作します。このモデルは、CroissantLLMイニシアチブの一部で、190kステップ(2.99Tトークン)後のチェックポイントに対応しています。
最終モデルを試すには、チャットバージョンを使用することをおすすめします:https://huggingface.co/croissantllm/CroissantLLMChat-v0.1。
https://arxiv.org/abs/2402.00786
🚀 クイックスタート
このモデルは、CroissantLLMイニシアチブの一部で、190kステップ(2.99Tトークン)後のチェックポイントに対応しています。最終モデルを試すには、チャットバージョンを使用することをおすすめします:https://huggingface.co/croissantllm/CroissantLLMChat-v0.1。
✨ 主な機能
- 3Tの英語とフランス語のトークンで事前学習された1.3Bの言語モデルです。
- 1:1の英語とフランス語の事前学習データ比率、カスタムトークナイザー、バイリンガル微調整データセットを使用して訓練されています。
- 訓練データセットを公開しており、手動で選りすぐられた高品質で多様なデータソースを含むフランス語の分割データが含まれています。
- 新しいベンチマークであるFrenchBenchを作成し、フランス語でのモデルの性能を評価しています。
- コードベース、様々なモデルサイズ、訓練データ分布、訓練ステップの数十のチェックポイント、微調整されたチャットモデル、強力な翻訳モデルを公開しています。
- FMTIフレームワークを通じてモデルを評価し、透明度基準の81%を検証しています。
📦 インストール
このモデルは、Hugging FaceのTransformersライブラリを使用してロードできます。以下のコードを使用して、モデルとトークナイザーをインストールできます。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))
📚 ドキュメント
概要
CroissantLLMは、3Tの英語とフランス語のトークンで事前学習された1.3Bの言語モデルです。このモデルは、研究および産業界に、高性能で完全にオープンソースのバイリンガルモデルを提供することを目的としています。このモデルは、消費者向けのローカルハードウェアでも高速に動作します。
引用
この研究は、以下のように引用できます。
@misc{faysse2024croissantllm,
title={CroissantLLM: A Truly Bilingual French-English Language Model},
author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2402.00786},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルは、MITライセンスの下で公開されています。
属性 |
详情 |
モデルタイプ |
テキスト生成モデル |
訓練データ |
cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset |
言語 |
フランス語、英語 |
パイプラインタグ |
テキスト生成 |
タグ |
法律、コード、テキスト生成推論、アート |