🚀 Gemma 3-4B 波斯語版 (v0)
mshojaei77/gemma-3-4b-persian-v0
是基於 Gemma 3 架構構建的波斯語專用模型。它利用 QLoRA 進行 4 位量化,以減少生成和理解波斯語文本時的計算開銷。除了文本生成,該模型還保留了其基礎模型繼承的圖像輸入能力。

🚀 快速開始
此模型與 Hugging Face Transformers 庫和 Ollama 均兼容。
📦 安裝指南
使用 Ollama 運行
ollama run hf.co/mshojaei77/gemma-3-4b-persian-v0:Q8_0
使用 Hugging Face Transformers 運行
- 安裝依賴項:
pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3 accelerate
- 加載模型和分詞器:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "mshojaei77/gemma-3-4b-persian-v0"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "user",
"content": "توماس جفرسون کیست؟"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True, tokenize=True, return_tensors="pt"
).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 詳細文檔
訓練數據和微調
訓練數據集
該模型使用 mshojaei77/Persian_sft 數據集進行微調,該數據集包含約 681,000 行專注於指令遵循和對話交互的波斯語文本。
微調
- 方法:使用 QLoRA(4 位量化)進行監督微調(SFT)
- 硬件:一塊 T4 GPU
- 軟件:使用 Hugging Face Transformers,以及支持庫,如用於 QLoRA 的
peft
和用於量化的 bitsandbytes
- 權衡:與全精度模型相比,減少了內存佔用,但會犧牲一些精度
評估
[即將推出]
使用注意事項和限制
預期用例
- 問答:準確回答波斯語查詢
- 指令遵循:解釋和執行波斯語文本指令
- 文本生成:生成流暢、有上下文感知的波斯語內容
- 對話式 AI:集成到聊天機器人和虛擬助理中
- 圖像處理:保留基礎模型的圖像輸入能力
限制
- 量化影響:4 位量化可能會降低輸出精度,並導致偶爾出現不連貫的響應。
- 評估範圍:缺乏針對此變體的全面評估指標。
- 偏差:該模型可能反映原始 Gemma 3 數據和 Persian_sft 數據集中存在的偏差。
- 幻覺:與所有大語言模型一樣,存在生成看似合理但不準確信息的風險。
- 安全性:該模型未經過安全調整,因此在敏感環境中部署時建議格外謹慎。
維護和未來工作
該模型正在積極維護中。未來更新可能包括:
- 額外的評估指標和基準
- 增強的安全調整和偏差緩解策略
- 擴展的文檔和使用示例
- 納入社區反饋以進行迭代改進
如有任何疑問、貢獻或問題,請聯繫我。
📄 許可證
本項目採用 Apache-2.0 許可證。
屬性 |
詳情 |
模型類型 |
基於 Gemma 3 架構的波斯語專用模型 |
訓練數據 |
mshojaei77/Persian_sft 數據集,包含約 681,000 行專注於指令遵循和對話交互的波斯語文本 |
評估指標 |
BLEU |
基礎模型 |
google/gemma-3-4b-it |
⚠️ 重要提示
4 位量化可能會降低輸出精度,並導致偶爾出現不連貫的響應;該模型未經過安全調整,因此在敏感環境中部署時建議格外謹慎。
💡 使用建議
若要使用 GPU 運行模型,可在加載模型時將 device_map
設置為 "cuda";可根據實際情況選擇 torch_dtype
為 torch.bfloat16
或 torch.float16
。