CroissantLLMBase - GGUFオープンソース言語モデル - 英仏語バイリンガルトレーニング、コンシューマーグレードのハードウェアで簡単に動作！

ホーム

Croissantllmbase GGUF

croissantllmによって開発

CroissantLLMは3Tの英仏バイリンガルトークンでトレーニングされた13億パラメータの言語モデルで、研究および産業界向けに設計されており、コンシューマーハードウェア上でスムーズに動作します。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #英仏バイリンガル #コンシューマーハードウェア対応 #法律文書生成

ダウンロード数 57

リリース時間 : 2/8/2024

モデル概要

CroissantLLMは高性能で完全にオープンソースのバイリンガルモデルで、1:1の英仏事前トレーニングデータ比率、カスタムトークナイザー、およびバイリンガルファインチューニングデータセットを使用してトレーニングされています。

モデル特徴

バイリンガル能力

1:1の英仏事前トレーニングデータ比率、カスタムトークナイザー、およびバイリンガルファインチューニングデータセットを使用してトレーニングされており、優れたバイリンガル処理能力を備えています。

高性能

コンシューマー向けのローカルハードウェア上でスムーズに動作し、研究および産業アプリケーションに適しています。

オープンソースで透明性

完全にオープンソースで、コードリポジトリ、複数のチェックポイント、チャットモデル、翻訳モデルを提供し、透明性基準の達成率は81％です。

モデル能力

テキスト生成

英仏翻訳

質問応答システム

使用事例

翻訳

英仏翻訳

英語テキストをフランス語に翻訳、またはその逆。

高品質なバイリンガル翻訳効果。

質問応答

知識質問応答

地理、歴史などの知識に関する質問に回答。

さまざまな知識問題に正確に回答。

テキスト生成

クリエイティブライティング

ストーリーや詩などのクリエイティブなテキストを生成。

流暢で創造的なテキスト出力。

🚀 CroissantLLM - Base GGUF (190k steps, Final version)

このモデルはCroissantLLMイニシアチブの一部であり、190kステップ（2.99 Tトークン）後のチェックポイントに対応しています。最終モデルを試すには、チャットバージョンを使用することをおすすめします：https://huggingface.co/croissantllm/CroissantLLMChat-v0.1。

https://arxiv.org/abs/2402.00786

📚 ドキュメント

概要

我々は、3Tの英語とフランス語のトークンのセットで事前学習された1.3Bの言語モデルであるCroissantLLMを導入し、研究および産業界に、消費者向けのローカルハードウェアで迅速に実行できる高性能かつ完全にオープンソースのバイリンガルモデルを提供します。そのために、我々は、英語とフランス語の事前学習データの比率を1:1にした独自のバイリンガルモデルのトレーニング手法、カスタムトークナイザー、およびバイリンガル微調整データセットを開発しました。我々はトレーニングデータセットを公開しており、特に、手動で選別された高品質で多様なデータソースを含むフランス語の分割データが含まれています。英語以外のパフォーマンスを評価するために、我々は、分類と生成のタスクの配列から構成され、フランス語におけるモデルのパフォーマンスの様々な直交する側面をカバーする新しいベンチマークであるFrenchBenchを作成しました。さらに、透明性を重視し、大規模言語モデルの研究を促進するために、我々はコードベース、および様々なモデルサイズ、トレーニングデータ分布、およびトレーニングステップにわたる数十のチェックポイント、ならびに微調整されたチャットモデルおよび強力な翻訳モデルを公開します。我々は、FMTIフレームワークを通じてモデルを評価し、透明性基準の81%を検証しており、ほとんどのオープンイニシアチブのスコアをはるかに上回っています。この研究は、以前の英語中心の研究から脱却し、言語モデルにおける多言語性の理解を強化することで、自然言語処理の分野を豊かにします。

引用

我々の研究は以下のように引用できます：

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

💻 使用例

基本的な使用法

このモデルはベースモデルです。つまり、チャット機能に微調整されておらず、Few-shotプロンプト戦略で最適に動作します。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))

# remove bos token
inputs = tokenizer("Capitales: France -> Paris, Italie -> Rome, Allemagne -> Berlin, Espagne ->", return_tensors="pt", add_special_tokens=True).to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60)
print(tokenizer.decode(tokens[0]))

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

データセット

cerebras/SlimPajama-627B
uonlp/CulturaX
pg19
bigcode/starcoderdata
croissantllm/croissant_dataset

言語

パイプラインタグ

text-generation