CroissantLLMBaseオープンソース言語モデル - 無料で使用可能な英仏語対応の高性能事前学習モデル

ホーム

Croissantllmbase

croissantllmによって開発

CroissantLLMは3兆の英仏バイリンガルトークンで事前学習された13億パラメータの言語モデルで、研究および産業コミュニティに高性能で完全にオープンソースなバイリンガルモデルを提供することを目的としています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #英仏バイリンガル生成 #小規模パラメータで効率的な推論 #法律とコードの二領域対応

ダウンロード数 901

リリース時間 : 1/9/2024

モデル概要

CroissantLLMは高性能で完全にオープンソースなバイリンガル（英語とフランス語）言語モデルで、コンシューマーグレードのローカルハードウェア上でスムーズに動作します。モデルは1:1の英仏事前学習データ比率、カスタムトークナイザー、およびバイリンガルファインチューニングデータセットを使用して本質的にバイリンガルモデルとして訓練されています。

モデル特徴

バイリンガルサポート

モデルは1:1の英仏事前学習データ比率を採用し、英語とフランス語に特化して最適化されています。

高性能

モデルはコンシューマーグレードのローカルハードウェア上でもスムーズに動作し、研究および産業用途に適しています。

オープンソースで透明

モデルは完全にオープンソースで、コードリポジトリ、チェックポイント、ファインチューニングされたチャットモデル、高品質な翻訳モデルが含まれています。

高品質なフランス語データ

トレーニングデータには手作業で選別された高品質で多様なフランス語データブランチが含まれています。

モデル能力

テキスト生成

バイリンガル翻訳

コード生成

使用事例

テキスト生成

バイリンガル翻訳

英語テキストをフランス語に翻訳、またはその逆を行います。

日常および専門的なシナリオに適した高品質な翻訳結果。

コード生成

プロンプトに基づいてコードスニペットを生成します。

開発者や研究者に適しています。

研究

多言語モデル研究

多言語環境における言語モデルのパフォーマンスを研究するために使用されます。

豊富なバイリンガルデータとモデルチェックポイントを提供します。

🚀 CroissantLLM - Base (190k steps, Final version)

CroissantLLMは、高性能で完全にオープンソースのバイリンガルモデルで、消費者向けのローカルハードウェアでも高速に動作します。このモデルは、CroissantLLMイニシアチブの一部で、190kステップ（2.99Tトークン）後のチェックポイントに対応しています。

最終モデルを試すには、チャットバージョンを使用することをおすすめします：https://huggingface.co/croissantllm/CroissantLLMChat-v0.1。

https://arxiv.org/abs/2402.00786

🚀 クイックスタート

このモデルは、CroissantLLMイニシアチブの一部で、190kステップ（2.99Tトークン）後のチェックポイントに対応しています。最終モデルを試すには、チャットバージョンを使用することをおすすめします：https://huggingface.co/croissantllm/CroissantLLMChat-v0.1。

✨ 主な機能

3Tの英語とフランス語のトークンで事前学習された1.3Bの言語モデルです。
1:1の英語とフランス語の事前学習データ比率、カスタムトークナイザー、バイリンガル微調整データセットを使用して訓練されています。
訓練データセットを公開しており、手動で選りすぐられた高品質で多様なデータソースを含むフランス語の分割データが含まれています。
新しいベンチマークであるFrenchBenchを作成し、フランス語でのモデルの性能を評価しています。
コードベース、様々なモデルサイズ、訓練データ分布、訓練ステップの数十のチェックポイント、微調整されたチャットモデル、強力な翻訳モデルを公開しています。
FMTIフレームワークを通じてモデルを評価し、透明度基準の81％を検証しています。

📦 インストール

このモデルは、Hugging FaceのTransformersライブラリを使用してロードできます。以下のコードを使用して、モデルとトークナイザーをインストールできます。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))

📚 ドキュメント

概要

CroissantLLMは、3Tの英語とフランス語のトークンで事前学習された1.3Bの言語モデルです。このモデルは、研究および産業界に、高性能で完全にオープンソースのバイリンガルモデルを提供することを目的としています。このモデルは、消費者向けのローカルハードウェアでも高速に動作します。

引用

この研究は、以下のように引用できます。

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 ライセンス

このモデルは、MITライセンスの下で公開されています。

属性	详情
モデルタイプ	テキスト生成モデル
訓練データ	cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset
言語	フランス語、英語
パイプラインタグ	テキスト生成
タグ	法律、コード、テキスト生成推論、アート