Gemma3-12b-Indicオープンソース大規模言語モデル - テルグ語のテキスト生成と会話タスクをサポート

ホーム

Gemma3 12b Indic

bharathkumar1922001によって開発

GoogleのGemma-3-12Bモデルをベースに、テルグ語に特化して教師ありファインチューニングされた大規模言語モデルで、高品質なテキスト生成と対話タスクをサポートします。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #テルグ語QA生成 #インド語族大規模モデル #12Bパラメータファインチューニング

ダウンロード数 129

リリース時間 : 4/8/2025

モデル概要

これはインド語族言語（まずはテルグ語）向けに最適化された12Bパラメータの大規模言語モデルで、Google Gemmaアーキテクチャを基に、カスタムテルグ語QAデータセットで教師ありファインチューニングされて訓練されました。

モデル特徴

インド語族言語サポート

テルグ語に特化して最適化されており、将来的にはより多くのインド語族言語をサポートする予定です

高品質な教師ありファインチューニング

4万サンプルのテルグ語QAデータセットで完全な教師ありファインチューニングを実施

高性能ハードウェアでのトレーニング

8 x NVIDIA H100 GPUを使用してトレーニングし、トレーニング時間は約3時間

長文脈サポート

4096トークンの長文脈処理能力をサポート

モデル能力

テルグ語テキスト生成

テルグ語QA

対話システム

マルチターン対話

使用事例

教育

テルグ語学習アシスタント

テルグ語を学ぶ学生の言語練習とQAを支援

自然で流暢なテルグ語の回答を提供

日常生活

生活アドバイスアシスタント

テルグ語での生活アドバイスと実用的な情報を提供

例示されているような食料品支出の節約アドバイス

🚀 🌟 Gemma-3-12B Indic 🌟

ご期待ください！これは普通の言語モデルではありません。これは、GoogleのGemma-3-12Bであり、特にインド諸言語（最初はテルグ語から）に対して完全な教師付き微調整（SFT） が施され、強化されたモデルです。テルグ語の質問と回答が詰まったカスタムデータセットで学習されており、このモデルはネイティブスピーカーのように理解、会話、テキスト生成ができるように設計されています。

我々は、すべての主要なインド諸言語に対応し、包括的な多言語インド語アシスタントを作成するために取り組んでいます。

📚 インド諸言語対応ロードマップ

言語	状態	ISOコード
テルグ語 (తెలుగు)	✅ 完了	te
ヒンディー語 (हिंदी)	🔄 近日公開予定	hi
タミル語 (தமிழ்)	🔄 近日公開予定	ta
マラヤーラム語 (മലയാളം)	🔄 近日公開予定	ml
カンナダ語 (ಕನ್ನಡ)	🔄 近日公開予定	kn
ベンガル語 (বাংলা)	🔄 近日公開予定	bn
マラーティー語 (मराठी)	🔄 近日公開予定	mr
パンジャーブ語 (ਪੰਜਾਬੀ)	🔄 近日公開予定	pa
グジャラート語 (ગુજરાતી)	🔄 近日公開予定	gu
オリヤー語 (ଓଡ଼ିଆ)	🔄 近日公開予定	or
アッサム語 (অসমীয়া)	🔄 近日公開予定	as

✨ サンプル対話 ✨

このモデルが何ができるのか気になりますか？ここで少し見てみましょう。

ユーザー ( ప్రశ్న ): ఇండియాలో గ్రోసరీస్ మీద డబ్బులు సేవ్ చేయడానికి బెస్ట్ వేస్ ఏంటి? (インドで食料品の支出を節約する最善の方法は何ですか？)

モデル ( జవాబు ): ఇండియాలో కిరాణా సామాన్ల మీద డబ్బులు సేవ్ చేయడానికి కొన్ని బెస్ట్ వేస్ ఇక్కడ ఉన్నాయి, చూడు:

予算を設定する: まず第一に、食料品の買い物に固定予算を設定しましょう。毎月いくら使うか事前に決めておけば、余分な支出を抑えることができます。

計画通りに買い物する: 買い物に行く前に、何を何個買うかリストを作っておきましょう。リストなしで行くと、いろいろ買ってしまい、予算を超えてしまうことがあります。

割引を探す: スーパーマーケットにはたくさんの割引やオファーがあります。それらを見つけて活用しましょう。時にはバンドル販売もあり、それを利用すると良い節約になります。

大量で買う方が良い: 一部の商品は大量で買うと単価が安くなります。特に豆類や油、穀物などは長期保存が可能なので、大量で買っても良いでしょう。

季節に合わせて買うのが賢い: どの季節に何が安く手に入るかを調べて、それに合わせて買うのが大切です。夏には果物、冬には野菜が安くなります。それらを利用しましょう。

🚀 モデルと学習の詳細

このモデルは自動的に学習するわけではありません！ここではその背景を紹介します。

ベースモデル: google/gemma-3-12b-pt
微調整方法: 完全な教師付き微調整（SFT）
現在の言語: テルグ語 (te) - インド語シリーズの最初の言語
ハードウェア: 🔥 8 x NVIDIA H100 GPU 🔥 (Modalによって提供されます)
学習時間: 約 3時間 (9744秒)
データセット: カスタムテルグ語QAデータセット (40kサンプル)
検証データ分割: 10% (36k学習 / 4k検証)
フレームワーク: LLaMA Factory, transformers, accelerate, DeepSpeed (ZeRO Stage 2 w/ CPU Offload)
精度: BF16

主要なハイパーパラメータ:

バッチサイズ (デバイスごと): 2
勾配累積: 32 (実効バッチサイズ: 512)
学習率: 2e-5 (Cosineスケジューラー)
学習エポック数: ~2.97
最大シーケンス長: 4096

学習指標:

最終学習損失: 0.7232
学習サンプル/秒: 11.083
総FLOPs: ~7.88e18 (たくさんの計算が必要です！🤓)

🔮 近日公開予定

今後の楽しい開発予定:

インド語のテキスト読み上げ (TTS) - 我々は、これらの応答を自然なインド語の音声合成で再生するコンパニオンTTSモデルを開発中です！
ヒンディー語を中心としたLLM - 我々は、ヒンディー語を主要言語とした専用の微調整トラックを開発中ですが、依然として多言語のインド語対応能力を維持します。
さらなるインド語の対応 - 我々は、すべての主要なインド語に対応するために着実に取り組んでおり、最も包括的なインド語アシスタントを作成します。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# モデルとトークナイザーを読み込む
model_name = "bharathkumar1922001/Gemma3-12b-Indic"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 安定性テストに基づき、eager attentionの使用を推奨
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16, # 学習時の精度に合わせる
    device_map="auto",          # 利用可能なGPU/CPUに分散して読み込む
    attn_implementation="eager" # Gemma 3の安定性のために推奨
)
model.eval() # 推論用に評価モードに設定

# モデルのテンプレートを使用してプロンプトをフォーマットする
question = "ఆర్థిక మాంద్యాన్ని ప్రభుత్వాలు ఎలా పరిష్కరించగలవు?" # 例: 政府は景気後退をどのように解決できますか？
prompt = f"<start_of_turn>user\n{question}<end_of_turn>\n<start_of_turn>model\n"

# トークナイズして生成する
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
    **inputs,
    max_new_tokens=512, # 必要に応じて最大長を調整
    temperature=0.7,    # ランダム性を制御する（値が低いほど決定的）
    top_p=0.95,         # ニュークリアスサンプリングの確率
    top_k=50,           # トップkサンプリング
    do_sample=True,     # サンプリングベースの戦略を有効にする
    eos_token_id=tokenizer.eos_token_id # または特定のID、例えばtokenizer.convert_tokens_to_ids("<end_of_turn>")[0]
)

# 応答をデコードする（入力プロンプトを除く）
response_ids = outputs[0, inputs.input_ids.shape[1]:]
response = tokenizer.decode(response_ids, skip_special_tokens=True)

print("--- 質問 ---")
print(question)
print("\n--- 応答 ---")
print(response)