Tanuki-8B-dpo-v1.0開源日語大語言模型 - 經優化適用於對話任務

首頁

Tanuki 8B Dpo V1.0

由weblab-GENIAC開發

Tanuki-8B是一個8B參數的日語大語言模型，經過SFT和DPO優化對話任務，由GENIAC松尾研究室開發

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語對話優化 #8B參數規模 #DPO微調

下載量 1,143

發布時間 : 8/12/2024

模型概述

從頭預訓練的日語大語言模型，針對對話任務進行優化，支持多輪對話和複雜指令理解

模型特點

日語優化

專門針對日語理解和生成進行優化，採用日語版Alpaca提示格式

對話優化

通過SFT和DPO訓練針對對話任務進行專門優化

多輪對話支持

支持複雜的多輪對話場景，保持上下文一致性

模型能力

日語文本生成

多輪對話處理

複雜指令理解

角色扮演對話

使用案例

智能助手

日語對話機器人

構建能進行自然日語對話的智能助手

在人工評估中表現良好

教育

日語學習輔助

幫助日語學習者練習對話和理解複雜概念

🚀 狸貓-8B-dpo-v1.0

狸貓-8B-dpo-v1.0是一款大規模語言模型，在多方面表現出色。它基於約80億參數，經過約1.3T令牌的從頭預訓練，並通過SFT和DPO進行對話調整。本項目由GENIAC松尾研LLM開發項目組織，眾多有志參與者共同開發。

🚀 快速開始

狸貓-8B是一個約80億參數的大規模語言模型，經過約1.3T令牌的從頭預訓練。狸貓-8x8B-dpo-v1.0則通過SFT和DPO進行了對話調整。更多詳細信息請參考博客文章。

本項目由GENIAC松尾研LLM開發項目組織，由通過公開招募聚集的有志參與者（包括企業人員、學生、研究人員等）共同開發。

✨ 主要特性

預訓練充分：約80億參數的模型經過約1.3T令牌的從頭預訓練。
對話優化：通過SFT和DPO進行對話調整。
多版本支持：提供多種量子化版本。
基準測試：有人工評估和Japanese MT - Bench等測試數據。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
]

input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
                            max_new_tokens=1024,
                            temperature=0.5,
                            streamer=streamer)

📚 詳細文檔

量子化模型

⚠️ 重要提示

GGUF版可能存在性能下降問題，不建議使用。

提示格式

狸貓-8B-dpo-v1.0使用日語版Alpaca的提示格式。

單輪對話

<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
たぬきに純粋理性批判は理解できますか？

### 応答:

多輪對話

<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
{1ターン目の入力}

### 応答:
{1ターン目の応答}</s>

### 指示:
{2ターン目の入力}

### 応答:

💡 使用建議

本模型除了默認的系統提示“以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。”外沒有學習其他提示，建議使用此係統提示。請在用戶提示中描述任務的詳細信息。

基準測試

人工評估

創建了一個模擬Chatbot Arena的系統，並進行了人工盲測。（詳情請參考此處）

已公開所有評估數據（約2000條）。 image/png

Japanese MT - Bench

由GPT - 4進行評估 (gpt - 4 - 0613，在計算平均分數時排除分數為 - 1的情況)

屬性	詳情
平均分數	狸貓-8B-dpo-v1.0為7.24，狸貓-8x8B-dpo-v1.0為7.96
編碼	狸貓-8B-dpo-v1.0為5.4，狸貓-8x8B-dpo-v1.0為6.75
提取	狸貓-8B-dpo-v1.0為6.65，狸貓-8x8B-dpo-v1.0為6.90
人文	狸貓-8B-dpo-v1.0為9.1，狸貓-8x8B-dpo-v1.0為9.3
數學	狸貓-8B-dpo-v1.0為3.9，狸貓-8x8B-dpo-v1.0為5.75
推理	狸貓-8B-dpo-v1.0為5.75，狸貓-8x8B-dpo-v1.0為7.35
角色扮演	狸貓-8B-dpo-v1.0為8.75，狸貓-8x8B-dpo-v1.0為8.95
科學技術	狸貓-8B-dpo-v1.0為9.35，狸貓-8x8B-dpo-v1.0為9.40
寫作	狸貓-8B-dpo-v1.0為9.05，狸貓-8x8B-dpo-v1.0為8.85

開發成員

畠山歓 [領導者]、asaoka_tadashi、Atsushi Saito、Chattso - GPT、Chihiro Arata、Chihiro HIGUCHI、Daichi Kohmoto、Esty、Hideaki Hayashi、hiroaki shioya、Issei Fujimoto、Jie Zeng、Jinsei Shiraishi、K. Nishizawa、Kazutaka Nishimae、Kunihiro Watanabe、masaki okamura、Minami Someya、M先生、Nishi、Nishijima、p1atdev、Rumi Nakagawa、Ryota Mitsuhashi、Susumu Ota、takagi、Toshio Nishida、y_morinaga、Yuki Namiuchi、Yukie Kawano、永原恆治、加藤純、河越淳、巖田兼太朗、菊池満帆、熊田匡仁、江國翔太、佐野敏幸、山口裕輝、西井康隆、川村正春、片上舜、堀江吏將、林寛太 (Kanta Hayashi)