🚀 Tom-Qwen-7B-Instruct
這是一個經過微調的70億參數模型,專門用於逐步執行指令和進行對話。
🚀 快速開始
本模型是基於Qwen/Qwen2.5 - 7B - Instruct微調而來,藉助Unsloth框架和LoRA(低秩自適應)技術實現高效訓練。以下是使用示例:
基礎用法
from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="theprint/Tom-Qwen-7B-Instruct",
max_seq_length=4096,
dtype=None,
load_in_4bit=True,
)
FastLanguageModel.for_inference(model)
inputs = tokenizer(["Your prompt here"], return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
高級用法:標準Transformers使用方式
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
"theprint/Tom-Qwen-7B-Instruct",
torch_dtype=torch.float16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("theprint/Tom-Qwen-7B-Instruct")
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Your question here"}
]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
outputs = model.generate(inputs, max_new_tokens=256, temperature=0.7, do_sample=True)
response = tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True)
print(response)
高級用法:使用llama.cpp
wget https://huggingface.co/theprint/Tom-Qwen-7B-Instruct/resolve/main/gguf/Tom-Qwen-7B-Instruct-q4_k_m.gguf
./llama.cpp/main -m Tom-Qwen-7B-Instruct-q4_k_m.gguf -p "Your prompt here" -n 256
✨ 主要特性
- 專門針對逐步指令和對話進行微調。
- 使用LoRA技術進行高效訓練。
- 提供多種量化版本,方便不同場景使用。
📦 安裝指南
文檔未提及具體安裝步驟,暫不提供。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
theprint |
模型類型 |
因果語言模型(使用LoRA微調) |
語言 |
英文 |
許可證 |
apache - 2.0 |
基礎模型 |
Qwen/Qwen2.5 - 7B - Instruct |
微調方法 |
LoRA,秩為128 |
GGUF量化版本
你可以在/gguf - folder找到該模型的量化gguf版本。量化後的GGUF版本位於gguf/
目錄,可用於llama.cpp:
Tom-Qwen-7B-Instruct-f16.gguf
(14531.9 MB) - 16位浮點數(原始精度,文件最大)
Tom-Qwen-7B-Instruct-q3_k_m.gguf
(3632.0 MB) - 3位量化(中等質量)
Tom-Qwen-7B-Instruct-q4_k_m.gguf
(4466.1 MB) - 4位量化(中等,推薦用於大多數用例)
Tom-Qwen-7B-Instruct-q5_k_m.gguf
(5192.6 MB) - 5位量化(中等,質量較好)
Tom-Qwen-7B-Instruct-q6_k.gguf
(5964.5 MB) - 6位量化(高質量)
Tom-Qwen-7B-Instruct-q8_0.gguf
(7723.4 MB) - 8位量化(非常高質量)
預期用途
對話、頭腦風暴和一般指令執行。
訓練詳情
訓練數據
為該模型專門創建的合成數據集,專注於實用技巧和幸福感。
- 數據集:theprint/Tom - 4.2k - alpaca
- 格式:alpaca
訓練過程
- 訓練輪數:3
- LoRA秩:128
- 學習率:0.0002
- 批量大小:4
- 框架:Unsloth + transformers + PEFT
- 硬件:NVIDIA RTX 5090
🔧 技術細節
本模型使用Unsloth框架和LoRA技術對Qwen/Qwen2.5 - 7B - Instruct進行微調。訓練過程中,使用了專門創建的合成數據集,通過多輪訓練和特定的學習率、批量大小等參數,在NVIDIA RTX 5090硬件上完成訓練。同時,為了方便不同場景使用,還提供了多種量化版本。
📄 許可證
本模型使用apache - 2.0許可證。
侷限性
該模型可能會產生幻覺或提供錯誤信息,不適合用於關鍵決策。
引用
如果使用此模型,請引用:
@misc{tom_qwen_7b_instruct,
title={Tom-Qwen-7B-Instruct: Fine-tuned Qwen/Qwen2.5-7B-Instruct},
author={theprint},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/theprint/Tom-Qwen-7B-Instruct}
}
致謝