Gemma3-12b-Indic开源大语言模型 - 支持泰卢固语文本生成与对话任务

首页

Gemma3 12b Indic

由 bharathkumar1922001 开发

基于谷歌Gemma-3-12B模型，专门针对泰卢固语进行监督式微调的大语言模型，支持高质量的文本生成和对话任务。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #泰卢固语问答生成 #印度语系大模型 #12B参数微调

下载量 129

发布时间 : 4/8/2025

模型简介

这是一个专为印度语系语言（首先是泰卢固语）优化的12B参数大语言模型，基于谷歌Gemma架构，通过监督式微调在自定义泰卢固语问答数据集上训练而成。

模型特点

印度语系语言支持

专门针对泰卢固语优化，未来计划支持更多印度语系语言

高质量监督式微调

在4万样本的泰卢固语问答数据集上进行全监督微调

高性能硬件训练

使用8 x NVIDIA H100 GPU进行训练，训练时间约3小时

长上下文支持

支持4096 tokens的长上下文处理能力

模型能力

泰卢固语文本生成

泰卢固语问答

对话系统

多轮对话

使用案例

教育

泰卢固语学习助手

帮助学习泰卢固语的学生进行语言练习和问答

提供自然流畅的泰卢固语回答

日常生活

生活建议助手

提供泰卢固语的生活建议和实用信息

如示例中的节省杂货开支建议

🚀 🌟 Gemma-3-12B 印度语系语言模型 🌟

这可不是普通的语言模型，而是经过全面监督微调（SFT）的 谷歌 Gemma-3-12B 模型，专门针对印度语系语言进行优化，首先支持的就是泰卢固语！该模型在包含泰卢固语问答的自定义数据集上进行训练，能够像母语者一样理解、对话和生成文本。

我们正在逐步支持所有主要的印度语系语言，以打造一个全面的多语言印度语系助手。

🔍 印度语系语言支持路线图

语言	状态	ISO 代码
泰卢固语 (తెలుగు)	✅ 已完成	te
印地语 (हिंदी)	🔄 即将推出	hi
泰米尔语 (தமிழ்)	🔄 即将推出	ta
马拉雅拉姆语 (മലയാളം)	🔄 即将推出	ml
卡纳达语 (ಕನ್ನಡ)	🔄 即将推出	kn
孟加拉语 (বাংলা)	🔄 即将推出	bn
马拉地语 (मराठी)	🔄 即将推出	mr
旁遮普语 (ਪੰਜਾਬੀ)	🔄 即将推出	pa
古吉拉特语 (ગુજરાતી)	🔄 即将推出	gu
奥里亚语 (ଓଡ଼ିଆ)	🔄 即将推出	or
阿萨姆语 (অসমীয়া)	🔄 即将推出	as

✨ 示例交互 ✨

想知道它能做什么吗？以下是一个简单的示例：

用户 ( ప్రశ్న ): ఇండియాలో గ్రోసరీస్ మీద డబ్బులు సేవ్ చేయడానికి బెస్ట్ వేస్ ఏంటి? (在印度，节省杂货开支的最佳方法是什么？)

模型 ( జవాబు ): ఇండియాలో కిరాణా సామాన్ల మీద డబ్బులు సేవ్ చేయడానికి కొన్ని బెస్ట్ వేస్ ఇక్కడ ఉన్నాయి, చూడు:

制定预算：首先，为杂货购物设定一个固定的预算。提前确定每月的开支，这样就不会超支。

按计划购物：在购物前，准备一份购物清单，明确要买什么和买多少。没有清单的话，可能会买很多不必要的东西，导致超出预算。

寻找折扣：超市里经常有折扣和优惠活动，要留意这些信息。有时候还有捆绑销售，这可以节省不少开支。

批量购买更划算：一些商品批量购买时价格会更便宜。特别是豆类、油类等可以保存较长时间的商品，可以考虑批量购买。

季节性购买很明智：了解每个季节哪些商品价格较低很重要。夏季的水果、冬季的蔬菜价格通常较低，可以充分利用这一点。

🚀 模型与训练详情

这个模型可不是自己训练出来的！以下是幕后的详细信息：

基础模型：google/gemma-3-12b-pt
微调方法：全面监督微调（Full SFT）
当前支持语言：泰卢固语 (te) - 印度语系系列的首个语言
硬件：🔥 8 x NVIDIA H100 GPUs 🔥（由 Modal 提供支持）
训练时间：约 3 小时（9744 秒）
数据集：自定义泰卢固语问答数据集（40k 样本）
验证集划分：10%（36k 训练样本 / 4k 验证样本）
使用框架：LLaMA Factory、transformers、accelerate、DeepSpeed（ZeRO Stage 2 并开启 CPU 卸载）
精度：BF16

关键超参数：

每设备批量大小：2
梯度累积：32（有效批量大小：512）
学习率：2e-5（余弦调度器）
训练轮数：约 2.97
最大序列长度：4096

训练指标：

最终训练损失：0.7232
每秒训练样本数：11.083
总浮点运算次数：约 7.88e18（这可是大量的计算！🤓）

🔮 即将推出

令人期待的新功能即将上线：

印度语系文本转语音（TTS） - 我们正在开发一个配套的 TTS 模型，它将通过自然的印度语系语音合成，让模型的回答更加生动！
以印地语为主的大语言模型 - 我们正在进行一项专门的微调工作，以印地语为主要语言，同时保持多语言印度语系的支持能力。
支持更多印度语系语言 - 我们正在有条不紊地支持所有主要的印度语系语言，以打造最全面的印度语系语言助手。

💻 使用示例

基础用法

可以使用 transformers 库来开始使用这个模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load model and tokenizer
model_name = "bharathkumar1922001/Gemma3-12b-Indic"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Recommend using eager attention based on stability testing
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16, # Match training precision
    device_map="auto",          # Loads across available GPUs/CPU
    attn_implementation="eager" # Recommended for Gemma 3 stability
)
model.eval() # Set to evaluation mode for inference

# Format your prompt using the model's template
question = "ఆర్థిక మాంద్యాన్ని ప్రభుత్వాలు ఎలా పరిష్కరించగలవు?" # Example: How can governments solve economic recession?
prompt = f"<start_of_turn>user\n{question}<end_of_turn>\n<start_of_turn>model\n"

# Tokenize and generate
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
    **inputs,
    max_new_tokens=512, # Adjust max length as needed
    temperature=0.7,    # Controls randomness (lower = more deterministic)
    top_p=0.95,         # Nucleus sampling probability
    top_k=50,           # Top-k sampling
    do_sample=True,     # Enable sampling based strategies
    eos_token_id=tokenizer.eos_token_id # Or specific ID like tokenizer.convert_tokens_to_ids("<end_of_turn>")[0]
)

# Decode the response (excluding the input prompt)
response_ids = outputs[0, inputs.input_ids.shape[1]:]
response = tokenizer.decode(response_ids, skip_special_tokens=True)

print("--- Question ---")
print(question)
print("\n--- Response ---")
print(response)