🚀 Qwen/Qwen-14B-Chat + Karasuのファインチューニングデータセット
このプロジェクトは、Qwen/Qwen-14B-Chatをベースに、Karasuのファインチューニングデータセットを用いて構築されたモデルに関するものです。特定のデータセットを利用して性能を向上させ、様々なタスクでの利用を可能にしています。
🚀 クイックスタート
モデルのデモ
モデルのデモ
説明の記事
説明の記事
✨ 主な機能
内部評価において、QarasuモデルはMTーBenchベンチマークで特に高い性能を発揮することが確認されています。現在、外部評価を待っています。

📦 インストール
本プロジェクトでは、モデルを使用するためのコード例を提供しています。以下に、HuggingfaceとVLLMを使用した場合のインストール方法を示します。
💻 使用例
基本的な使用法
Hugggingface
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("lightblue/qarasu-14B-chat-plus-unleashed", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("lightblue/qarasu-14B-chat-plus-unleashed", torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
messages = [{"role": "system", "content": "あなたはAIアシスタントです。"}]
messages.append({"role": "user", "content": "イギリスの首相は誰ですか?"})
prompt = tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, tokenize=False)
pipe(prompt, max_new_tokens=100, do_sample=False, temperature=0.0, return_full_text=False)
VLLM
from vllm import LLM, SamplingParams
sampling_params = SamplingParams(temperature=0.0, max_tokens=100)
llm = LLM(model="lightblue/qarasu-14B-chat-plus-unleashed", trust_remote_code=True)
messages = [{"role": "system", "content": "あなたはAIアシスタントです。"}]
messages.append({"role": "user", "content": "イギリスの首相は誰ですか?"})
prompt = llm.llm_engine.tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, tokenize=False)
prompts = [prompt]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
📚 ドキュメント
ベースチェックポイント
Qwen/Qwen-14B-Chat
学習データセット (合計約7B)
'plus'チェックポイントと同じですが、カテゴリデータセットから約6Kの拒否応答(「申し訳ありませんが、。。。」)をフィルタリングしています。
- LightblueのKujiraデータセットセット(未公開)
- Lightblue独自の質問ベースのデータセット(未公開)
- Lightblue独自のカテゴリベースのデータセット(未公開)
- OASST (日本語チャットのみ)
- ShareGPT (日本語チャットのみ)
- augmxnt/ultra-orca-boros-en-ja-v1 (['airoboros', 'slimorca', 'ultrafeedback', 'airoboros_ja_new']のみ)
👥 開発者情報
開発会社
エンジニア
アドバイザー
- Yuuki Yamanaka
- Atom Sonoda
プロジェクトマネージャー
データセット評価者
📄 ライセンス
本プロジェクトは、Tongyi Qianwen LICENSE AGREEMENTのライセンスの下で提供されています。