モデル概要
モデル特徴
モデル能力
使用事例
🚀 GaMS - 9B - Instructのモデルカード
GaMS - 2B、GaMS - 9B、GaMS - 27Bは、GaMS(Slovene用生成モデル)ファミリーの新しい改良された大規模モデルです。これらのモデルはGoogleのGemma 2ファミリーに基づいており、スロベニア語、英語、そして一部のクロアチア語、セルビア語、ボスニア語のコーパスを用いて継続的に事前学習されています。
🚀 クイックスタート
このモデルは、以下のコードを使ってpipeline
API経由で実行できます。
基本的な使用法
from transformers import pipeline
model_id = "cjvt/GaMS - 9B - Instruct"
pline = pipeline(
"テキスト生成",
model=model_id,
device_map="cuda" # Macデバイスで実行する場合は "mps" に置き換える
)
# 応答生成の例
message = [{"role": "user", "content": "スロベニアの歴史において最も重要な出来事は何ですか?"}]
response = pipeline(message, max_new_tokens=512)
print("モデルの応答:", response[0]["generated_text"][-1]["content"])
# 会話連鎖の例
new_message = response[0]["generated_text"]
new_message.append({"role": "user", "content": "この出来事をもっと詳しく説明できますか?"})
response = pipeline(new_message, max_new_tokens=1024)
print("モデルの応答:", response[0]["generated_text"][-1]["content"])
高度な使用法
マルチGPU推論の場合は、device_map
をauto
に設定します。
from transformers import pipeline
model_id = "cjvt/GaMS - 9B - Instruct"
pline = pipeline(
"テキスト生成",
model=model_id,
device_map="auto"
)
# 応答生成の例
message = [{"role": "user", "content": "スロベニアの歴史において最も重要な出来事は何ですか?"}]
response = pipeline(message, max_new_tokens=512)
print("モデルの応答:", response[0]["generated_text"][-1]["content"])
# 会話連鎖の例
new_message = response[0]["generated_text"]
new_message.append({"role": "user", "content": "この出来事をもっと詳しく説明できますか?"})
response = pipeline(new_message, max_new_tokens=1024)
print("モデルの応答:", response[0]["generated_text"][-1]["content"])
✨ 主な機能
- 多言語対応:スロベニア語、英語を主に、クロアチア語、ボスニア語、セルビア語にも対応しています。
- テキスト生成:詩、脚本、コード、マーケティングコピー、メール草稿などの創造的なテキスト形式を生成することができます。
- チャットボットと対話型AI:カスタマーサービス、仮想アシスタント、またはインタラクティブなアプリケーションのための対話型インターフェイスを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
基本情報
属性 | 详情 |
---|---|
開発者 | リュブリャナ大学、コンピュータと情報科学学部の研究者チーム。チームメンバー: Domen Vreš、Iztok Lebar Bajec、Tjaša Arčon、Gašper Jelovčan、Marko Robnik - Šikonja。 |
言語 | スロベニア語、英語(主要)、クロアチア語、ボスニア語、セルビア語(次要)。このモデルは、Gemma 2がサポートする他の言語に対しても機能する可能性がありますが、それらの言語では継続的に事前学習されていません。 |
ベースモデル | [cjvt/GaMS - 9B](https://huggingface.co/cjvt/GaMS - 9B) |
ライセンス | Gemma |
データ
CPTデータ
モデルは2段階で継続的に事前学習されました。最初の段階では、英語とスロベニア語(場合によってはクロアチア語)の並列コーパスを用いて言語をアラインメントしました。2段階目では、英語、スロベニア語、クロアチア語、ボスニア語、セルビア語の個別のコーパスを用いて学習されました。
並列アラインメントコーパス
コーパス | アラインメントレベル | #トークン | パーセンテージ |
---|---|---|---|
KAS Abstracts | 文書レベル | 31 M | 1.65 % |
DGT | 個別文書 | 697 M | 36.56 % |
MaCoCu Parallel | 個別文書 | 430 M | 22.53 % |
CC - News | 段落レベル | 749 M | 39.25 % |
合計 | 1.91 B |
各アラインメントレベルの説明:
- 文書レベル: 並列文書が1つの文書に連結されました。
- 個別文書: 並列文書は明示的にアラインメントされていません。
- 段落レベル: 並列文書の段落が連結されました(スロベニア語/英語文書の最初の段落の後に、もう一方の言語の最初の段落が続き、その後に最初の言語の2番目の段落が続くなど)。
2段階目のコーパス
コーパス | 言語 | #トークン | パーセンテージ |
---|---|---|---|
KAS | スロベニア語 | 2.77 B | 20.34 % |
MetaFida* | スロベニア語 | 4.66 B | 34.18 % |
Wikipedia - En (日付: 2025年1月23日) | 英語 | 5.45 B | 39.99 % |
Wikipedia - Sl (日付: 2025年1月1日) | スロベニア語 | 0.16 B | 1.19 % |
Wikipedia - Hr (日付: 2025年1月1日) | クロアチア語 | 0.15 B | 1.13 % |
Wikipedia - Bs (日付: 2025年1月1日) | ボスニア語 | 0.07 B | 0.50 % |
Wikipedia - Sr - Latin* | セルビア語 | 0.36 B | 2.68 % |
合計 | 13.62 B |
注記:
- 次のコーパスはMetaFidaから除外されました: dgt15_sl、classlawiki_sl、tweet_sl、janes_tweet、janes_forum、janes_news
- セルビア語のウィキペディアはキリル文字からラテン文字に変換されました。
SFTデータ
SFT用の学習データは、約25,000個の学習例と1,500個の検証例から構成されています。データセットは以下のデータセットの混合です。
- GaMS - Instruct - GEN 1.0
- GaMS - Instruct - DH 1.0: このデータセットから3,000個のランダムに選択された例が選ばれました。
- GaMS - Instruct - MED 1.0: このデータセットから3,000個のランダムに選択された例が選ばれました。
- Parallel corpus EN - SL RSDO4 2.0: このコーパスには追加のフィルタリングが行われました。まず、[NeMo Curator](https://docs.nvidia.com/nemo - framework/user - guide/latest/datacuration/languageidentification.html)を用いてFastText言語識別を実行し、ソースが英語、ターゲットがスロベニア語と検出された例のみを残しました。次に、[COMET](https://huggingface.co/Unbabel/wmt23 - cometkiwi - da - xxl)モデルを実行して翻訳を評価しました。COMETスコアが0.945を超える例のみを残しました(約8,000個の例)。
- Aya Dataset: このデータセットからは英語とセルビア語の例のみが取られました。セルビア語の例はキリル文字からラテン文字に変換されました。
- Math competitions: 2001年から2010年のスロベニアの全国数学コンペのPDFを取得しました。[olmOCR](https://huggingface.co/allenai/olmOCR - 7B - 0225 - preview)を用いてPDFからテキストを抽出し、抽出されたテキストを手動で修正しました。これにより、約150個の解かれた数学問題が得られました。
学習
このモデルは、Leonardo HPCのBoosterパーティションで学習されました。
CPT
モデルはNVIDIA NeMo 2.0フレームワークを用いて継続的に事前学習されました。モデルはBF16ミックス精度で、4つのGPU間でテンソル並列、シーケンス並列、およびアクティベーション再計算を用いて学習されました。モデルは32ノードで学習され、各ノードには4つのA100 64GB GPUが搭載されていました。並列アラインメント学習には約4時間、2段階目には約40時間かかりました。
モデルは、線形ウォームアップ付きのコサイン学習率スケジューラを用いて学習され、以下のハイパーパラメータが使用されました。
- 並列アラインメント:
- ウォームアップステップ: 150
- 最小学習率: 5e - 6
- 最大学習率: 2e - 5
- 定常ステップ: 0
- バッチサイズ: 512 (400万トークン)
- 2段階目:
- ウォームアップステップ: 500
- 最小学習率: 5e - 6
- 最大学習率: 5e - 5
- 定常ステップ: 100
- バッチサイズ: 512 (400万トークン)
SFT
教師付き微調整には、DeepSpeed ZeRO - 3を用いたTransformersライブラリが使用されました。モデルはBF16精度で学習され、4つのGPU間でパイプライン並列を用いて分割されました。モデルは4つのA100 64 GB GPUを搭載した1つのノードで学習されました。オプティマイザにはCPUオフロードが使用されました。
モデルは、線形ウォームアップ付きのコサイン学習率スケジューラを用いて調整され、以下のハイパーパラメータが使用されました。
- エポック数: 5エポックで学習が行われましたが、検証損失に基づいて最良の性能を示したモデルは2エポック後に得られたため、そのモデルを採用しました。
- バッチサイズ: 128
- ウォームアップステップ: 150
- 最小学習率: 1e - 7
- 最大学習率: 5e - 6
- 定常ステップ: 0
評価
モデルは、SloBench上のSlovene SuperGLUEの分類タスクコレクションを用いて評価されました。モデルのInstructバージョンは、英語からスロベニア語への翻訳とスロベニア語から英語への翻訳についても評価されました。さらに、[Slovenian - LLM - Eval](https://huggingface.co/datasets/cjvt/slovenian - llm - eval)でモデルを評価しました。
評価用のコード:
- SloBenchタスク
- [Slovenian - LLM - Eval](https://github.com/SloLama/slovenian - llm - eval)
Slovenian - LLM - Evalの結果
GaMSモデル、ベースのGemma 2モデル、およびSlovenianGPT(Mistral 7Bに基づくスロベニア語用のオープンソースモデル)の比較が以下の図に示されています。すべてのモデルは0ショットシナリオで評価されました。

Slobenchの結果
GaMS 2B、9B、27Bモデルは、MultiRCと翻訳タスクを除いて3ショットシナリオで評価され、MultiRCと翻訳タスクでは0ショットが使用されました。GaMS - 9B - Instructは、すべてのタスクで0ショットシナリオで評価されました。応答の正しい形式を保証するために、ガイド付きデコーディングが使用されました。
Slovene SuperGLUE
順位 | タイトル | 平均 | BoolQ精度 | CB精度 | CB F1スコア | CB平均 | COPA精度 | MultiRC EM | MultiRC F1aスコア | MultiRC平均 | RTE精度 | WSC精度 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | GaMS - 27B | 0.7601 | 0.8333 | 0.6440 | 0.5864 | 0.6152 | 0.9540 | 0.3904 | 0.7504 | 0.5704 | 0.7931 | 0.7945 |
2 | PrešernGPT 0.1 | 0.7568 | 0.8333 | 0.8520 | 0.5868 | 0.7194 | 0.9740 | 0.4985 | 0.8061 | 0.6523 | 0.8276 | 0.5342 |
3 | Gemma 2 27B | 0.7546 | 0.8333 | 0.6680 | 0.5972 | 0.6326 | 0.9140 | 0.4174 | 0.7295 | 0.5735 | 0.8276 | 0.7466 |
4 | GaMS - 9B | 0.7309 | 0.7000 | 0.8400 | 0.7955 | 0.8178 | 0.9000 | 0.3243 | 0.6551 | 0.4897 | 0.7931 | 0.6849 |
5 | GaMS - 9B - Instruct | 0.6997 | 0.8000 | 0.7960 | 0.7128 | 0.7544 | 0.8140 | 0.0721 | 0.6174 | 0.3447 | 0.7931 | 0.6918 |
6 | Gemma 2 9B | 0.6980 | 0.8333 | 0.8240 | 0.5683 | 0.6962 | 0.8700 | 0.2282 | 0.5310 | 0.3796 | 0.7241 | 0.6849 |
8 | CroSloEngual BERT | 0.6078 | 0.7333 | 0.7920 | 0.7437 | 0.7679 | 0.5720 | 0.0931 | 0.5241 | 0.3086 | 0.6552 | 0.6096 |
11 | SlovenianGPT - Chat | 0.5078 | 0.7333 | 0.3920 | 0.3829 | 0.3874 | 0.6840 | 0.2432 | 0.4944 | 0.3688 | 0.5172 | 0.3562 |
12 | Gemma 2 2B | 0.4876 | 0.6333 | 0.4520 | 0.2123 | 0.3321 | 0.5180 | 0.1471 | 0.4419 | 0.2945 | 0.5862 | 0.5616 |
13 | GaMS - 2B | 0.4790 | 0.5667 | 0.6080 | 0.4880 | 0.5480 | 0.5240 | 0.0631 | 0.5234 | 0.2932 | 0.5517 | 0.3904 |
14 | GaMS - 1B | 0.4604 | 0.5000 | 0.6200 | 0.4565 | 0.5382 | 0.4920 | 0.1351 | 0.2675 | 0.2013 | 0.4828 | 0.5479 |
15 | GaMS - 1B - Chat | 0.4570 | 0.8000 | 0.4880 | 0.3023 | 0.3951 | 0.4840 | 0.1081 | 0.2428 | 0.1755 | 0.5172 | 0.3692 |
英語からスロベニア語への翻訳(ベンチマークの上位11モデル)
順位 | タイトル | BERTスコア | BLEU (平均) | METEOR (平均) | CHRF (平均) | BLEU (コーパス) | CHRF (コーパス) |
---|---|---|---|---|---|---|---|
1 | DeepL Translator | 0.8812 | 0.3153 | 0.5902 | 0.6205 | 0.3599 | 0.6205 |
2 | gemini - 1.5 - pro | 0.8791 | 0.3124 | 0.5895 | 0.6176 | 0.3569 | 0.6176 |
3 | Sonnet 3.5 | 0.8789 | 0.3059 | 0.5783 | 0.6204 | 0.3442 | 0.6204 |
4 | gpt - 4o | 0.8784 | 0.2958 | 0.5811 | 0.6138 | 0.3379 | 0.6138 |
5 | EuroLLM - 9B - Instruct | 0.8741 | 0.2927 | 0.5792 | 0.6055 | 0.3273 | 0.6055 |
6 | seamless - m4t - v2 - large | 0.8731 | 0.2780 | 0.5599 | 0.5947 | 0.3085 | 0.5947 |
7 | GaMS - 9B - Instruct | 0.8713 | 0.2773 | 0.5616 | 0.5928 | 0.3209 | 0.5928 |
8 | Zlatorog | 0.8706 | 0.2834 | 0.5633 | 0.6014 | 0.2903 | 0.6014 |
9 | RSDO - DS4 - NMT 1.2.2 | 0.8705 | 0.2794 | 0.5634 | 0.5956 | 0.3226 | 0.5956 |
9 | META LLAMA 3.1 405B | 0.8705 | 0.2637 | 0.5497 | 0.5930 | 0.3063 | 0.5930 |
11 | RSDO - DS4 - NMT 1.2 | 0.8698 | 0.2781 | 0.5602 | 0.5970 | 0.3177 | 0.5970 |
スロベニア語から英語への翻訳(ベンチマークの上位10モデル)
順位 | タイトル | BERTスコア | BLEU (平均) | METEOR (平均) | CHRF (平均) | BLEU (コーパス) | CHRF (コーパス) |
---|---|---|---|---|---|---|---|
1 | gpt - 4o | 0.9496 | 0.3161 | 0.6655 | 0.6297 | 0.3496 | 0.6297 |
2 | gemini - 1.5 - pro | 0.9489 | 0.3117 | 0.6560 | 0.6237 | 0.3502 | 0.6237 |
3 | gpt - 4o - mini | 0.9466 | 0.2976 | 0.6493 | 0.6197 | 0.3328 | 0.6197 |
4 | GaMS - 9B - Instruct | 0.9454 | 0.2821 | 0.6275 | 0.6018 | 0.3141 | 0.6018 |
5 | ChatGPTv1 | 0.9449 | 0.2852 | 0.6415 | 0.6096 | 0.3171 | 0.6096 |
6 | RSDO - DS4 - NMT 1.2.4 | 0.9434 | 0.2839 | 0.6227 | 0.5967 | 0.3290 | 0.5967 |
7 | RSDO - DS4 - NMT 1.2.6 | 0.9433 | 0.2832 | 0.6207 | 0.5944 | 0.3295 | 0.5944 |
8 | RSDO - DS4 - NMT 1.2.2 | 0.9431 | 0.2785 | 0.6184 | 0.5933 | 0.3240 | 0.5933 |
8 | RSDO - DS4 - NMT 1.2 | 0.9431 | 0.2805 | 0.6201 | 0.5941 | 0.3231 | 0.5941 |
10 | eTranslation SLEN | 0.9414 | 0.2729 | 0.6175 | 0.5913 | 0.3119 | 0.5913 |
使用方法と制限(Gemma 2から引用)
これらのモデルには、ユーザーが認識すべき一定の制限があります。
想定される使用方法
オープン大規模言語モデル(LLM)は、様々な産業やドメインにわたって幅広い用途があります。以下の潜在的な使用例のリストは網羅的ではありません。このリストの目的は、モデルの作成者がモデルの学習と開発の一環として考慮した可能なユースケースに関する文脈情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、メール草稿などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと対話型AI: カスタマーサービス、仮想アシスタント、またはインタラクティブなアプリケーションのための対話型インターフェイスを提供します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 研究と教育
- 自然言語処理(NLP)研究: これらのモデルは、研究者がNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤となります。
- 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法修正や写作練習を支援します。
- 知識探索: 研究者が特定のトピックに関する要約を生成したり質問に答えたりすることで、大量のテキストを探索するのを支援します。
制限
- 学習データ
- 学習データの品質と多様性は、モデルの能力に大きな影響を与えます。学習データのバイアスやギャップは、モデルの応答の制限につながる可能性があります。
- 学習データセットの範囲は、モデルが効果的に扱うことができる主題領域を決定します。
- 文脈とタスクの複雑性
- LLMは、明確なプロンプトと指示で構造化できるタスクでより優れています。オープンエンドまたは非常に複雑なタスクは困難な場合があります。
- モデルの性能は、提供される文脈の量に影響される可能性があります(ある程度まで、文脈が長いほど出力が良くなる傾向があります)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。LLMは微妙なニュアンス、皮肉、または比喩的な表現を理解するのに苦労する可能性があります。
- 事実の正確性
- LLMは学習データセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
- 常識
- LLMは言語の統計的パターンに依存します。特定の状況で常識的な推論を適用する能力が不足している場合があります。
倫理的考慮事項とリスク
大規模言語モデル(LLM)の開発にはいくつかの倫理的な懸念が生じます。オープンモデルを作成するにあたり、以下のことを慎重に考慮しました。
- バイアスと公平性
- 大規模で現実世界のテキストデータを用いて学習されたLLMは、学習材料に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは注意深く精査され、入力データの前処理が説明され、本カードで事後評価が報告されています。
- 誤情報と誤用
- LLMは、虚偽、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のためのガイドラインが提供されており、[Responsible Generative AI Toolkit][rai - toolkit]を参照してください。
- 透明性と説明責任
- このモデルカードは、モデルのアーキテクチャ、能力、制限、および評価プロセスに関する詳細を要約しています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者にLLM技術をアクセス可能にすることで、革新を共有する機会を提供します。
特定されたリスクと対策:
- バイアスの継続: モデルの学習、微調整、およびその他のユースケースで、評価指標や人間のレビューを使用した継続的なモニタリングとデバイアシング技術の探索が推奨されます。
- 有害コンテンツの生成: コンテンツセーフティのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツセーフティ対策を実装するよう注意を払うことが推奨されます。
- 悪意のある目的での誤用: 技術的な制限と開発者およびエンドユーザーの教育は、LLMの悪意のあるアプリケーションに対する緩和策として役立つ可能性があります。ユーザーが誤用を報告するための教育リソースと報告メカニズムが提供されています。Gemmaモデルの禁止使用は、[Gemma Prohibited Use Policy][prohibited - use]に記載されています。
- プライバシー侵害: モデルは、個人識別情報(PII)が削除されるようにフィルタリングされたデータを用いて学習されました。開発者は、プライバシー保護技術を用いてプライバシー規制に準拠することが推奨されます。
🔧 技術詳細
モデルアーキテクチャ
このモデルはGoogleのGemma 2ファミリーに基づいており、Transformerアーキテクチャを使用しています。
学習方法
モデルは2段階で継続的に事前学習され、その後に教師付き微調整が行われました。事前学習にはNVIDIA NeMo 2.0フレームワークを使用し、微調整にはTransformersライブラリとDeepSpeed ZeRO - 3を使用しました。
評価方法
モデルは、SloBench上のSlovene SuperGLUEの分類タスクコレクション、英語からスロベニア語への翻訳、スロベニア語から英語への翻訳、およびSlovenian - LLM - Evalで評価されました。
📄 ライセンス
このモデルはGemmaライセンスの下で提供されています。
謝辞
このモデルは、PoVeJMo研究プログラム(大規模言語モデルを用いた適応型自然言語処理)内、特にSloLLaMaiという研究プロジェクト(スロベニア語向けのオープンアクセスで計算効率の良いモデル)の枠組みで開発されました。このプログラムは、スロベニア研究・イノベーション庁(ARIS)とNextGenerationEUによる回復とレジリエンス計画の枠内で資金提供を受けています。著者らはまた、スロベニア研究・イノベーション庁による研究基盤資金(No. P6 - 0411 ― スロベニア語の言語資源と技術)の支援にも感謝しています。
データ収集と準備に携わり、私たちがモデルを学習することを可能にした皆様に感謝します。特にNikola Ljubešić、Taja Kuzman、Tjaša Arčon、Jaka Čibej、Simon Krek、Tomaž Erjavec、Iztok Kosem、Tomaž Savodnikに感謝します。



