Tom-Qwen-7B-Instructオープンソース対話モデル - 無料で利用可能、指令対話を高精度に実行

ホーム

Tom Qwen 7B Instruct

theprintによって開発

Qwen/Qwen2.5 - 7B - Instructをベースに微調整された70億パラメータのモデルで、段階的な指令実行と対話タスクに特化しています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #LoRA微調整 #指令分解 #対話最適化

ダウンロード数 142

リリース時間 : 7/18/2025

モデル概要

これはLoRA微調整された大規模言語モデルで、段階的な指令の実行と対話インタラクションに特化しています。

モデル特徴

効率的な微調整

LoRA（低ランク適応）技術を使用して効率的に訓練され、ランクは128です。

複数の量子化バージョン

3ビットから8ビットまでの複数の量子化バージョンを提供し、さまざまなハードウェア要件に対応します。

対話最適化

対話シーンに特化して微調整され、段階的な指令実行能力を最適化しています。

モデル能力

テキスト生成

対話インタラクション

指令実行

ブレインストーミング

使用事例

対話システム

スマートアシスタント

対話アシスタントとしてユーザーの質問に回答します。

コンテンツ生成

クリエイティブライティング

ユーザーのブレインストーミングとクリエイティブライティングを支援します。

🚀 Tom-Qwen-7B-Instruct

70億パラメータを持つモデルで、ステップバイステップの指示と会話に特化して微調整されています。

🚀 クイックスタート

Tom-Qwen-7B-Instructは、Qwen/Qwen2.5-7B-Instructをベースに、Unslothフレームワークを用いてLoRA（Low-Rank Adaptation）で効率的に微調整されたモデルです。以下に使い方の例を示します。

基本的な使用法

from unsloth import FastLanguageModel
import torch

# モデルとトークナイザーをロード
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="theprint/Tom-Qwen-7B-Instruct",
    max_seq_length=4096,
    dtype=None,
    load_in_4bit=True,
)

# 推論モードを有効化
FastLanguageModel.for_inference(model)

# 使用例
inputs = tokenizer(["Your prompt here"], return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

高度な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "theprint/Tom-Qwen-7B-Instruct",
    torch_dtype=torch.float16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("theprint/Tom-Qwen-7B-Instruct")

# 使用例
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Your question here"}
]

inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
outputs = model.generate(inputs, max_new_tokens=256, temperature=0.7, do_sample=True)
response = tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True)
print(response)

llama.cppでの使用

# 量子化バージョンをダウンロード（ほとんどのケースでq4_k_mが推奨）
wget https://huggingface.co/theprint/Tom-Qwen-7B-Instruct/resolve/main/gguf/Tom-Qwen-7B-Instruct-q4_k_m.gguf

# llama.cppで実行
./llama.cpp/main -m Tom-Qwen-7B-Instruct-q4_k_m.gguf -p "Your prompt here" -n 256

✨ 主な機能

会話、アイデア出し、一般的な指示に対応します。

📦 インストール

このモデルを使用するには、上記のコード例に記載されているライブラリをインストールする必要があります。

📚 ドキュメント

モデル詳細

属性	详情
開発者	theprint
モデルタイプ	因果言語モデル（LoRAで微調整）
言語	en
ライセンス	apache-2.0
ベースモデル	Qwen/Qwen2.5-7B-Instruct
微調整方法	ランク128のLoRA

GGUF量子化バージョン

このモデルの量子化されたGGUFバージョンは、/gguf-folderにあります。量子化されたGGUFバージョンはgguf/ディレクトリにあり、llama.cppで使用できます。

Tom-Qwen-7B-Instruct-f16.gguf (14531.9 MB) - 16ビット浮動小数点（元の精度、最も大きいファイル）
Tom-Qwen-7B-Instruct-q3_k_m.gguf (3632.0 MB) - 3ビット量子化（中程度の品質）
Tom-Qwen-7B-Instruct-q4_k_m.gguf (4466.1 MB) - 4ビット量子化（中程度、ほとんどのケースで推奨）
Tom-Qwen-7B-Instruct-q5_k_m.gguf (5192.6 MB) - 5ビット量子化（中程度、良い品質）
Tom-Qwen-7B-Instruct-q6_k.gguf (5964.5 MB) - 6ビット量子化（高品質）
Tom-Qwen-7B-Instruct-q8_0.gguf (7723.4 MB) - 8ビット量子化（非常に高品質）

意図された使用法

会話、アイデア出し、一般的な指示の実行に適しています。

トレーニング詳細

トレーニングデータ

実用的なヒントや幸福に焦点を当てた、このモデル用に特別に作成された合成データセットです。

データセット: theprint/Tom-4.2k-alpaca
形式: alpaca

トレーニング手順

トレーニングエポック: 3
LoRAランク: 128
学習率: 0.0002
バッチサイズ: 4
フレームワーク: Unsloth + transformers + PEFT
ハードウェア: NVIDIA RTX 5090

🔧 技術詳細

このモデルは、Unslothフレームワークを用いてLoRAで微調整されています。トレーニングには3エポック行い、学習率は0.0002、バッチサイズは4で行われました。使用されたハードウェアはNVIDIA RTX 5090です。

📄 ライセンス

このモデルはapache-2.0ライセンスの下で提供されています。

制限事項

⚠️ 重要提示

このモデルは、架空の情報を生成したり、誤った情報を提供することがあります。重要な決定には適していません。

引用

もしこのモデルを使用する場合は、以下を引用してください。

@misc{tom_qwen_7b_instruct,
  title={Tom-Qwen-7B-Instruct: Fine-tuned Qwen/Qwen2.5-7B-Instruct},
  author={theprint},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/theprint/Tom-Qwen-7B-Instruct}
}