🚀 Gemma 3-4B 波斯语版 (v0)
mshojaei77/gemma-3-4b-persian-v0
是基于 Gemma 3 架构构建的波斯语专用模型。它利用 QLoRA 进行 4 位量化,以减少生成和理解波斯语文本时的计算开销。除了文本生成,该模型还保留了其基础模型继承的图像输入能力。

🚀 快速开始
此模型与 Hugging Face Transformers 库和 Ollama 均兼容。
📦 安装指南
使用 Ollama 运行
ollama run hf.co/mshojaei77/gemma-3-4b-persian-v0:Q8_0
使用 Hugging Face Transformers 运行
- 安装依赖项:
pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3 accelerate
- 加载模型和分词器:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "mshojaei77/gemma-3-4b-persian-v0"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "user",
"content": "توماس جفرسون کیست؟"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True, tokenize=True, return_tensors="pt"
).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 详细文档
训练数据和微调
训练数据集
该模型使用 mshojaei77/Persian_sft 数据集进行微调,该数据集包含约 681,000 行专注于指令遵循和对话交互的波斯语文本。
微调
- 方法:使用 QLoRA(4 位量化)进行监督微调(SFT)
- 硬件:一块 T4 GPU
- 软件:使用 Hugging Face Transformers,以及支持库,如用于 QLoRA 的
peft
和用于量化的 bitsandbytes
- 权衡:与全精度模型相比,减少了内存占用,但会牺牲一些精度
评估
[即将推出]
使用注意事项和限制
预期用例
- 问答:准确回答波斯语查询
- 指令遵循:解释和执行波斯语文本指令
- 文本生成:生成流畅、有上下文感知的波斯语内容
- 对话式 AI:集成到聊天机器人和虚拟助理中
- 图像处理:保留基础模型的图像输入能力
限制
- 量化影响:4 位量化可能会降低输出精度,并导致偶尔出现不连贯的响应。
- 评估范围:缺乏针对此变体的全面评估指标。
- 偏差:该模型可能反映原始 Gemma 3 数据和 Persian_sft 数据集中存在的偏差。
- 幻觉:与所有大语言模型一样,存在生成看似合理但不准确信息的风险。
- 安全性:该模型未经过安全调整,因此在敏感环境中部署时建议格外谨慎。
维护和未来工作
该模型正在积极维护中。未来更新可能包括:
- 额外的评估指标和基准
- 增强的安全调整和偏差缓解策略
- 扩展的文档和使用示例
- 纳入社区反馈以进行迭代改进
如有任何疑问、贡献或问题,请联系我。
📄 许可证
本项目采用 Apache-2.0 许可证。
属性 |
详情 |
模型类型 |
基于 Gemma 3 架构的波斯语专用模型 |
训练数据 |
mshojaei77/Persian_sft 数据集,包含约 681,000 行专注于指令遵循和对话交互的波斯语文本 |
评估指标 |
BLEU |
基础模型 |
google/gemma-3-4b-it |
⚠️ 重要提示
4 位量化可能会降低输出精度,并导致偶尔出现不连贯的响应;该模型未经过安全调整,因此在敏感环境中部署时建议格外谨慎。
💡 使用建议
若要使用 GPU 运行模型,可在加载模型时将 device_map
设置为 "cuda";可根据实际情况选择 torch_dtype
为 torch.bfloat16
或 torch.float16
。