タヌキ-8x8B-dpo-v1.0オープンソース言語モデル - 無料でのデプロイで高品質な対話交流を支援します

Home

Tanuki 8x8B Dpo V1.0

Developed by weblab-GENIAC

Tanuki-8x8Bはゼロから事前学習された大規模言語モデルで、SFTとDPOを通じて対話タスクに対して最適化されています。

大規模言語モデル

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #日本語最適化対話 #ハイブリッドエキスパートアーキテクチャ #1.7T事前学習

Downloads 217

Release Time : 8/12/2024

Model Overview

Tanuki-8x8B-dpo-v1.0はパラメータ規模が8x8B（総パラメータ約47B、アクティブパラメータ約13B）の大規模言語モデルで、事前学習データ量は約1.7Tトークンで、日本語と英語の対話タスクに特化して最適化されています。

Model Features

ハイブリッドエキスパートアーキテクチャ

8x8Bのハイブリッドエキスパートアーキテクチャを採用し、総パラメータは約47Bですが、アクティブパラメータは約13Bのみで、性能と効率をバランスさせています。

日本語最適化

日本語対話タスクに特化して最適化されており、高品質な日本語テキスト生成をサポートします。

DPO最適化

教師付き微調整(SFT)と直接嗜好最適化(DPO)を通じて対話品質を向上させました。

多量化サポート

AWQ、GPTQなどの複数量化バージョンを提供し、異なるハードウェア環境でのデプロイを容易にします。

Model Capabilities

日本語テキスト生成

英語テキスト生成

マルチラウンド対話

タスク指向対話

Use Cases

スマートアシスタント

日本語質問応答システム

日本語ユーザー向けのスマート質問応答アシスタントを構築します。

人為的な評価で優れた結果を示しました。

教育

日本語学習支援

日本語学習者の言語練習を支援します。

🚀 Tanuki-8x8B-dpo-v1.0

Tanuki-8x8B-dpo-v1.0は、大規模言語モデルであり、事前学習とSFT、DPOによる調整を行っています。このモデルは有志の参加者によって開発され、量子化モデルも提供されています。以下に、モデルの詳細や使い方、ベンチマーク結果などを紹介します。

🚀 クイックスタート

Tanuki-8x8B-dpo-v1.0をすぐに使い始めるには、以下の手順に従ってください。まず、flash attentionをインストールし、その後推論用のコードを実行します。

インストール

本モデルの推論にはflash attentionが必須です。以下のコマンドでインストールしてください。

pip install --no-build-isolation flash_attn

推論コード

以下はHuggingFace　Transformersを使った推論のサンプルコードです。

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0", device_map="auto", torch_dtype="auto", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
]

input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
                            max_new_tokens=1024,
                            temperature=0.5,
                            streamer=streamer)

また、vLLMを使って推論をする場合は、改変済みvLLMをビルドする必要があります。

git clone https://github.com/team-hatakeyama-phase2/vllm.git
cd vllm
LD_LIBRARY_PATH="" MAX_JOBS=16 pip install -e .

以下はvLLMを使った推論のサンプルコードです。

from time import time
from vllm import LLM, SamplingParams

model_name = "weblab-GENIAC/Tanuki-8x8B-dpo-v1.0"
# model_name = "team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ"
# model_name = "team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit"
# model_name = "team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-8bit"

# vllm = LLM(model_name, trust_remote_code=True, tensor_parallel_size=1)  # 1GPUの場合
vllm = LLM(model_name, trust_remote_code=True, tensor_parallel_size=2)  # 2GPUを使う場合
tokenizer = vllm.get_tokenizer()

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
]

inputs_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(f"inputs_text: {inputs_text}")

sampling_params = SamplingParams(temperature=0.0, max_tokens=1024, seed=1, repetition_penalty=1.1)
start = time()
outputs = vllm.generate(inputs_text, sampling_params=sampling_params, use_tqdm=False)
end = time()
outputs_text = outputs[0].outputs[0].text
print(f"outputs_text: {outputs_text}")
print(f"Elapsed time: {(end - start):.4f} sec.")

✨ 主な機能

大規模事前学習：Tanuki-8x8Bは約1.7Tトークンで事前学習を行っています。
対話用調整：SFTおよびDPOにより対話用に調整されています。
量子化モデル提供：AWQ、GPTQ、GGUFの量子化モデルが利用可能です。

📦 インストール

本モデルの推論にはflash attentionが必須です。以下のコマンドでインストールしてください。

pip install --no-build-isolation flash_attn

vLLMを使って推論をする場合は、改変済みvLLMをビルドする必要があります。

git clone https://github.com/team-hatakeyama-phase2/vllm.git
cd vllm
LD_LIBRARY_PATH="" MAX_JOBS=16 pip install -e .

💻 使用例

基本的な使用法

HuggingFace　Transformersを使った推論のサンプルコードです。

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0", device_map="auto", torch_dtype="auto", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
]

input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
                            max_new_tokens=1024,
                            temperature=0.5,
                            streamer=streamer)

高度な使用法

vLLMを使った推論のサンプルコードです。

from time import time
from vllm import LLM, SamplingParams

model_name = "weblab-GENIAC/Tanuki-8x8B-dpo-v1.0"
# model_name = "team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ"
# model_name = "team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit"
# model_name = "team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-8bit"

# vllm = LLM(model_name, trust_remote_code=True, tensor_parallel_size=1)  # 1GPUの場合
vllm = LLM(model_name, trust_remote_code=True, tensor_parallel_size=2)  # 2GPUを使う場合
tokenizer = vllm.get_tokenizer()

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
]

inputs_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(f"inputs_text: {inputs_text}")

sampling_params = SamplingParams(temperature=0.0, max_tokens=1024, seed=1, repetition_penalty=1.1)
start = time()
outputs = vllm.generate(inputs_text, sampling_params=sampling_params, use_tqdm=False)
end = time()
outputs_text = outputs[0].outputs[0].text
print(f"outputs_text: {outputs_text}")
print(f"Elapsed time: {(end - start):.4f} sec.")

📚 ドキュメント

プロンプト形式

Tanuki-8x8B-dpo-v1.0は日本語版Alpacaのプロンプト形式を利用します。

シングルターン

<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
たぬきに純粋理性批判は理解できますか？

### 応答:

マルチターン

<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
{1ターン目の入力}

### 応答:
{1ターン目の応答}</s>

### 指示:
{2ターン目の入力}

### 応答:

なお、本モデルはデフォルトのシステムプロンプトである「以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。」以外を学習していないため、このシステムプロンプトの使用を推奨します。タスクの詳細はユーザープロンプトに記述してください。

ベンチマーク

人手評価

Chatbot Arenaを模したシステムを作成し、人手によるブラインドテストを実施しました。（詳細はこちら）
全評価データ（約2000件）を公開しています。 image/png

Japanese MT-Bench

GPT-4による評価 (gpt-4-0613、平均スコア算出においてスコア-1は除外)

属性	Tanuki-8B-dpo-v1.0	Tanuki-8x8B-dpo-v1.0
平均スコア	7.24	7.96
coding	5.4	6.75
extraction	6.65	6.90
humanities	9.1	9.3
math	3.9	5.75
reasoning	5.75	7.35
roleplay	8.75	8.95
stem	9.35	9.40
writing	9.05	8.85

🔧 技術詳細

Tanuki-8x8Bは、フルスクラッチで約1.7Tトークン事前学習を行った8x8Bパラメータ（総パラメータ約47B、アクティブパラメータ約13B）の大規模言語モデルです。Tanuki-8x8B-dpo-v1.0は、SFTおよびDPOにより対話用に調整されています。

📄 ライセンス

本モデルはApache-2.0ライセンスのもとで提供されています。

開発メンバー

畠山歓 [リーダー]、asaoka_tadashi、Atsushi Saito、Chattso-GPT、Chihiro Arata、Chihiro HIGUCHI、Daichi Kohmoto、Esty、Hideaki Hayashi、hiroaki shioya、Issei Fujimoto、Jie Zeng、Jinsei Shiraishi、K. Nishizawa、Kazutaka Nishimae、Kunihiro Watanabe、masaki okamura、Minami Someya、Mさん、Nishi、Nishijima、p1atdev、Rumi Nakagawa、Ryota Mitsuhashi、Susumu Ota、takagi、Toshio Nishida、y_morinaga、Yuki Namiuchi、Yukie Kawano、永原恒治、加藤純、河越淳、岩田兼太朗、菊池満帆、熊田匡仁、江國翔太、佐野敏幸、山口裕輝、西井康隆、川村正春、片上舜、堀江吏将、林寛太 (Kanta Hayashi)