🚀 SambaLingo-Turkish-Base
SambaLingo-Turkish-Baseは、事前学習されたトルコ語と英語のバイリンガルモデルです。このモデルは、Llama-2-7bを、Cultura-Xデータセットのトルコ語分割データ(420億トークン)を使ってトルコ語に適応させたものです。このモデルは、困惑度とFLORES-200翻訳において最先端の評価結果を報告しています。このモデルのチャットバージョンについては、sambanovasystems/SambaLingo-Turkish-Chatを参照するか、SambaLingo-chat-spaceで試すことができます。
🚀 クイックスタート
Hugging Faceでのモデルの読み込み
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")
推論パラメータの提案
これは事前学習されたチェックポイントであるため、do_sample=False
に設定することをおすすめします。
プロンプトガイドライン
このモデルは事前学習されたチェックポイントであるため、効果的に使用するには、例を用いたフューショットプロンプトを使用してください。必要な唯一のプロンプトテンプレートは、Llamaトークナイザーの標準の<s>
(BOS)トークンです。このモデルと直接質問やクエリで対話したい場合は、人間の好みに合わせて調整されたモデルのチャットバージョン sambanovasystems/SambaLingo-Turkish-Chat を使用してください。
✨ 主な機能
SambaLingo-Turkish-Baseは、事前学習されたトルコ語と英語のバイリンガル言語モデルで、最先端の評価結果を達成しています。このモデルは、Llama 2をベースに、Cultura-Xデータセットのトルコ語データを使ってトレーニングされています。
📦 インストール
このモデルの使用は、Metaの Llama 2 Community License Agreement によって管理されています。モデルの重みをダウンロードする前に、ライセンスを確認して承諾してください。
📚 ドキュメント
モデルの説明
トレーニングの詳細
すべての事前学習は、Cultura-X データセットで行われます。Csaki et al. の提案に従い、データを混合して、適応する言語のデータを75%、英語を25%にします。データを長さ4096のシーケンスにパックし、トークンを学習する際に、対応するテキストドキュメントのコンテキスト内の前のトークンのみにアテンションを向けるようにします。グローバルバッチサイズ1024、シーケンス長4096、最大学習率1e-4でコサイン減衰、ウォームアップ率0.01、重み減衰0.1でトレーニングします。
トークナイザーの詳細
ベースのLlamaモデルの語彙を、新しい言語から最大25,000の重複しないトークンを追加することで、32,000トークンから57,000トークンに拡張しました。
評価
評価結果については、私たちの論文 SambaLingo: Teaching Large Language Models New Languages を参照してください。
使用方法
直接使用
このモデルの使用は、Metaの Llama 2 Community License Agreement によって管理されています。モデルの重みをダウンロードする前に、ライセンスを確認して承諾してください。
範囲外の使用
SambaLingoは、以下の用途には使用しないでください。
- 使命クリティカルなアプリケーション
- 他人の安全に関わるアプリケーション
- 非常に重要な決定を下すためのアプリケーション
バイアス、リスク、および制限
すべての大規模言語モデルと同様に、SambaLingoには特定の制限があります。
- 幻覚: モデルは時々、もっともらしく聞こえるが事実上誤っているまたは関係のない情報を含む応答を生成することがあります。
- コードスイッチング: モデルは、単一の応答内で意図せず言語や方言を切り替えることがあり、出力の一貫性と理解しやすさに影響を与えます。
- 繰り返し: モデルは繰り返しのフレーズや文を生成することがあり、魅力的で有益な応答が得られなくなります。
- コーディングと数学: モデルが正確なコードを生成したり、複雑な数学問題を解いたりする能力は限られている可能性があります。
- 毒性: モデルは不適切または有害な内容を含む応答を誤って生成する可能性があります。
🔧 技術詳細
データセット
データセット |
詳細 |
トレーニングデータ |
Cultura-X データセット。データを混合して、適応する言語のデータを75%、英語を25%にします。 |
トレーニングパラメータ
- グローバルバッチサイズ: 1024
- シーケンス長: 4096
- 最大学習率: 1e-4(コサイン減衰)
- ウォームアップ率: 0.01
- 重み減衰: 0.1
📄 ライセンス
このモデルの使用は、Metaの Llama 2 Community License Agreement によって管理されています。
謝辞
私たちは、オープンソースAIコミュニティに心から感謝しています。この取り組みは、オープンソースなしでは不可能でした。SambaNovaはオープンソースコミュニティを受け入れ、このイニシアチブに積極的に貢献することを目指しています。
以下のグループに特別な感謝を捧げます。
- MetaがLLama 2をオープンソース化し、FLORES-200データセットを公開してくれたこと
- NguyenらがCulturaXデータセットをオープンソース化してくれたこと
- CohereAIがAYA-101をリリースし、多言語命令微調整データセットをオープンソース化してくれたこと
- EleutherAIがオープンソースの評価フレームワークを提供してくれたこと
- Hugging Face-H4チームがZephyrトレーニングレシピとアライメントハンドブックリポジトリをオープンソース化してくれたこと
SambaLingoの引用
@misc{csaki2024sambalingo,
title={SambaLingo: Teaching Large Language Models New Languages},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}