flammen21 - mistral - 7Bオープンソース大規模言語モデル。ロールプレイやクリエイティブライティングなどの汎用タスクに長けています。

ホーム

Flammen21 Mistral 7B

flammenaiによって開発

Mistral 7B大規模言語モデルをベースに、事前学習モデルを統合し、Date-DPO-v2データセットで微調整したもので、ロールプレイング、クリエイティブライティング、一般的な知的タスクに長けています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #ロールプレイングの最適化 #クリエイティブライティングの強化 #DPO微調整

ダウンロード数 23

リリース時間 : 4/22/2024

モデル概要

Flammen21-mistral-7BはMistral 7Bアーキテクチャに基づく大規模言語モデルで、直接嗜好最適化（DPO）による微調整を行い、ロールプレイング、クリエイティブライティング、一般的な知的タスクの性能向上に特化しています。

モデル特徴

直接嗜好最適化微調整

DPO手法を用いてDate-DPO-v2データセットで微調整を行い、特定タスクにおけるモデルの性能を向上させました。

LoRA効率的微調整

低ランク適応（LoRA）技術を採用し、モデルの性能を維持しながら学習リソースの必要量を大幅に削減します。

長文脈処理

最大4096トークンの文脈長をサポートし、長文処理タスクに適しています。

モデル能力

ロールプレイング

クリエイティブライティング

テキスト生成

対話システム

コンテンツ作成

使用事例

エンターテインメント

ロールプレイングゲーム

ゲーム内のAIキャラクターとして自然な対話を行います。

没入感のあるロールプレイング体験を提供します。

クリエイティブライティングアシスタント

作家がクリエイティブなコンテンツを生成したり、執筆障害を克服したりするのを支援します。

創作意欲をかき立て、執筆効率を向上させます。

教育

言語学習パートナー

言語練習の対話パートナーとして機能します。

自然な言語交流環境を提供します。

🚀 flammen21-mistral-7B

Mistral 7Bの大規模言語モデルで、事前学習モデルをマージし、flammenai/Date-DPO-v2 で微調整することで構築されています。Flammenは、卓越したキャラクターロールプレイ、創作的な文章作成、および一般的な知能に特化しています。

image/png

✨ 主な機能

卓越したキャラクターロールプレイ
創作的な文章作成
一般的な知能

📚 ドキュメント

方法

Google Colab上のL4を使用して微調整されています。 Fine-tune a Mistral-7b model with Direct Preference Optimization - Maxime Labonne

設定

LoRA、モデル、およびトレーニングの設定は以下の通りです。

# LoRA configuration
peft_config = LoraConfig(
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=['k_proj', 'gate_proj', 'v_proj', 'up_proj', 'q_proj', 'o_proj', 'down_proj']
)

# Model to fine-tune
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)
model.config.use_cache = False

# Reference model
ref_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)

# Training arguments
training_args = TrainingArguments(
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    gradient_checkpointing=True,
    learning_rate=5e-5,
    lr_scheduler_type="cosine",
    max_steps=420,
    save_strategy="no",
    logging_steps=1,
    output_dir=new_model,
    optim="paged_adamw_32bit",
    warmup_steps=100,
    bf16=True,
    report_to="wandb",
)

# Create DPO trainer
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    peft_config=peft_config,
    beta=0.1,
    max_prompt_length=2048,
    max_length=4096,
    force_use_ref_model=True
)

# Fine-tune model with DPO
dpo_trainer.train()