Qarasu-14B-chat-plus-unleashedオープンソース対話モデル - 日英バイリンガルの高品質交流をサポート

ホーム

Qarasu 14B Chat Plus Unleashed

lightblueによって開発

QarasuはQwen-14B-Chatをファインチューニングした日本語と英語の対話モデルで、MT-Benchベンチマークテストで優れた性能を発揮します。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #日本語と英語のバイリンガル #チャットアシスタントの最適化 #大規模言語モデル14B

ダウンロード数 51

リリース時間 : 12/22/2023

モデル概要

QarasuはQwen-14B-Chatをベースにファインチューニングされた多言語対話モデルで、日本語と英語のコミュニケーションに特化しており、AIアシスタントなどのシナリオに適しています。

モデル特徴

多言語サポート

日本語と英語の対話に特化し、バイリンガルアプリケーションに最適

高品質なファインチューニング

約70億件の高品質データに基づいてファインチューニングされ、低品質な回答はフィルタリング済み

優れたベンチマーク性能

MT-Benchベンチマークテストで顕著な性能を発揮

モデル能力

日本語対話生成

英語対話生成

マルチターン対話処理

質問応答システム

使用事例

AIアシスタント

日本語質問応答アシスタント

様々なトピックに関するユーザーの日本語質問に回答

例では英国首相に関する質問に正しく回答

カスタマーサービス

バイリンガルカスタマーサービスボット

日本語と英語の顧客相談に対応

🚀 Qwen/Qwen-14B-Chat + Karasuのファインチューニングデータセット

このプロジェクトは、Qwen/Qwen-14B-Chatをベースに、Karasuのファインチューニングデータセットを用いて構築されたモデルに関するものです。特定のデータセットを利用して性能を向上させ、様々なタスクでの利用を可能にしています。

drawing

🚀 クイックスタート

モデルのデモ

説明の記事

✨ 主な機能

内部評価において、QarasuモデルはMTーBenchベンチマークで特に高い性能を発揮することが確認されています。現在、外部評価を待っています。

image/png

📦 インストール

本プロジェクトでは、モデルを使用するためのコード例を提供しています。以下に、HuggingfaceとVLLMを使用した場合のインストール方法を示します。

💻 使用例

基本的な使用法

Hugggingface

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("lightblue/qarasu-14B-chat-plus-unleashed", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("lightblue/qarasu-14B-chat-plus-unleashed", torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

messages = [{"role": "system", "content": "あなたはAIアシスタントです。"}]
messages.append({"role": "user", "content": "イギリスの首相は誰ですか？"})

prompt = tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, tokenize=False)

pipe(prompt, max_new_tokens=100, do_sample=False, temperature=0.0, return_full_text=False)

VLLM

from vllm import LLM, SamplingParams

sampling_params = SamplingParams(temperature=0.0, max_tokens=100)
llm = LLM(model="lightblue/qarasu-14B-chat-plus-unleashed", trust_remote_code=True)

messages = [{"role": "system", "content": "あなたはAIアシスタントです。"}]
messages.append({"role": "user", "content": "イギリスの首相は誰ですか？"})
prompt = llm.llm_engine.tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, tokenize=False)
prompts = [prompt]

outputs = llm.generate(prompts, sampling_params)
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📚 ドキュメント

ベースチェックポイント

Qwen/Qwen-14B-Chat

学習データセット (合計約7B)

'plus'チェックポイントと同じですが、カテゴリデータセットから約6Kの拒否応答（「申し訳ありませんが、。。。」）をフィルタリングしています。

LightblueのKujiraデータセットセット（未公開）
Lightblue独自の質問ベースのデータセット（未公開）
Lightblue独自のカテゴリベースのデータセット（未公開）
OASST (日本語チャットのみ)
ShareGPT (日本語チャットのみ)
augmxnt/ultra-orca-boros-en-ja-v1 (['airoboros', 'slimorca', 'ultrafeedback', 'airoboros_ja_new']のみ)