Karakuri-lm-8x7b-chat-v0.1オープンソース対話モデル - 英語と日本語の双方向コミュニケーションを無料でサポート

ホーム

Karakuri Lm 8x7b Chat V0.1

karakuri-aiによって開発

KARAKURI社が開発した混合専門家モデル(MoE)、英語と日本語の対話をサポート、Swallow-MX-8x7b-NVE-v0.1をファインチューニング

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語最適化チャット #属性制御生成 #混合専門家アーキテクチャ

ダウンロード数 526

リリース時間 : 4/25/2024

モデル概要

マルチターン対話をサポートする混合専門家モデルで、主にテキスト生成タスクに使用され、特に英語と日本語のコミュニケーション能力を最適化

モデル特徴

多属性制御応答

9種類の調整可能な属性(有用性、正確性、ユーモアなど)で生成内容の品質とスタイルを精密に制御

二言語サポート最適化

特に英語と日本語に最適化されており、両言語で優れた性能を発揮

効率的なパラメータ利用

混合専門家モデルとして、わずか13Bの活性化パラメータでより大規模なモデルに匹敵する性能を実現

モデル能力

マルチターン対話生成

属性制御テキスト生成

二言語(英/日)コミュニケーション

指示追従

使用事例

インテリジェントアシスタント

旅行アドバイス

東京日帰り旅行の観光プラン提案

詳細なスケジュールと観光スポットの推薦を生成

カスタマーサービス

多言語カスタマーサポート

英語と日本語の顧客問い合わせ対応

正確で役立つ二言語応答を提供

🚀 KARAKURI LM 8x7B Chat v0.1

このモデルは、主に英語と日本語に対応したMixture of Experts（MoE）型のモデルで、tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1 をベースに微調整されています。

🚀 クイックスタート

KARAKURI LM 8x7B Chat v0.1は、高度な自然言語処理能力を持つモデルです。以下のセクションでは、このモデルの詳細、使い方、パフォーマンス、トレーニングの詳細について説明します。

✨ 主な機能

主に英語と日本語に対応した自然言語処理が可能。
独自のプロンプトフォーマットを用いて、多様な属性値を指定できる。
高度なパフォーマンスを持ち、MT-Bench-jpで高いスコアを記録。

📚 ドキュメント

🔍 モデル詳細

属性	详情
開発元	KARAKURI Inc.
モデルタイプ	Mixture of Experts (MoE)
対応言語	主に英語と日本語
ライセンス	Apache 2.0
ベースモデル	tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
問い合わせ先	`karakuri-rd@karakuri.ai`
デモ	https://lm.karakuri.cc/

💻 使用例

基本的な使用法

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("karakuri-ai/karakuri-lm-8x7b-chat-v0.1")

messages = [
    {"role": "system", "content": "System prompt"},
    {"role": "user", "content": "User prompt"},
    {"role": "assistant", "content": "Model response"},
    {"role": "user", "content": "User prompt"},
]
tokenizer.apply_chat_template(messages, tokenize=False)
# <s>[INST] <<SYS>>
# System prompt
# <</SYS>>
#
# User prompt [ATTR] helpfulness: 4 correctness: 4 coherence: 4 complexity: 4 verbosity: 4 quality: 4 toxicity: 0 humor: 0 creativity: 0 [/ATTR] [/INST]Model response</s>[INST] User prompt [ATTR] helpfulness: 4 correctness: 4 coherence: 4 complexity: 4 verbosity: 4 quality: 4 toxicity: 0 humor: 0 creativity: 0 [/ATTR] [/INST]

高度な使用法

messages = [
    {"role": "user", "content": "User prompt", "helpfulness": 0, "complexity": 0},
]
tokenizer.apply_chat_template(messages, tokenize=False)
# <s>[INST] User prompt [ATTR] helpfulness: 0 correctness: 4 coherence: 4 complexity: 0 verbosity: 4 quality: 4 toxicity: 0 humor: 0 creativity: 0 [/ATTR] [/INST]

モデルの実行

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "karakuri-ai/karakuri-lm-8x7b-chat-v0.1",
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "user",
        "content": "週末に日帰りで東京に遊びに行こうと思っています。日帰りなので、短時間で回れるおすすめの観光プランを教えてください。",
    },
]

input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
).to(model.device)
outputs = model.generate(input_ids, max_new_tokens=512)
tokenizer.decode(outputs[0][input_ids.shape[-1]:])

⚠️ 注意事項

⚠️ 重要提示

プロンプトフォーマットは KARAKURI LM 70B Chat v0.1 から変更されています。正しいフォーマットに従ってください。そうしないと、モデルの出力が最適ではなくなります。

📊 パフォーマンス

モデル	有効パラメータ数	アライメント	MT-Bench-jp
Qwen1.5 72B Chat	72B	DPO	8.19
KARAKURI LM 8x7B Chat v0.1	13B	SteerLM	7.54
Command R+	104B	-	7.31
Mixtral 8x7B Instruct v0.1	13B	DPO	7.24
Llama 3 70B Instruct	70B	RLHF	7.13
KARAKURI LM 70B Chat v0.1	70B	SteerLM	6.43
Llama 2 70B Chat	70B	RLHF	5.23

🔧 技術詳細

トレーニングデータ

OASST2
HelpSteer
内部日本語データセット

トレーニングインフラストラクチャ

ハードウェア：このモデルは、Amazon EC2 trn1.32xlargeインスタンスの8ノードでトレーニングされました。
ソフトウェア：neuronx-nemo-megatron をベースにしたコードを使用しています。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

📖 引用

@misc{karakuri_lm_8x7b_chat_v01,
	author       = { {KARAKURI} {I}nc. },
	title        = { {KARAKURI} {LM} 8x7{B} {C}hat v0.1 },
	year         = { 2024 },
	url          = { https://huggingface.co/karakuri-ai/karakuri-lm-8x7b-chat-v0.1 },
	publisher    = { Hugging Face },
    journal      = { Hugging Face repository }
}