EVA Qwen2.5 72B V0.2
Qwen2.5-72Bをベースに微調整された大規模言語モデルで、テキスト生成と命令追従タスクに特化しています。
Downloads 392
Release Time : 11/21/2024
Model Overview
このモデルはQwen2.5-72Bアーキテクチャをベースに微調整されたバリエーションで、主にテキスト生成、対話システム、命令追従タスクに使用されます。複数の高品質データセットを用いた訓練により、理解と生成能力が強化されています。
Model Features
大規模パラメータ
720億のパラメータを持ち、強力な言語理解と生成能力を備えています。
複数データセットによる微調整
命令追従、ライティング、ロールプレイングなどのシナリオを含む複数の高品質データセットを用いて微調整されています。
命令最適化
複雑な命令の理解と実行能力が特に最適化されています。
Model Capabilities
テキスト生成
対話システム
命令追従
クリエイティブライティング
ロールプレイング
Use Cases
コンテンツ作成
クリエイティブライティング
小説、詩などのクリエイティブなテキストを生成します。
首尾一貫したクリエイティブな文学作品を生成することができます。
ライティング支援
ユーザーが様々なライティングタスクを完了するのを支援します。
構造提案と内容拡張を提供します。
対話システム
スマートアシスタント
複雑な命令を理解できる対話システムを構築します。
複数回の有意義な対話を行うことができます。
ロールプレイング
特定のキャラクターを模倣して対話します。
キャラクターの一貫性を維持し、キャラクターに合った返答を生成することができます。
🚀 EVA Qwen2.5-72B v0.2
これは、ロールプレイングやストーリーライティングに特化した専用モデルです。Qwen2.5-72Bをベースに、合成データと自然データの混合データセットで全パラメータ微調整を行っています。Celeste 70B 0.1のデータを混合し、大幅に拡張することで、モデルの汎用性、創造性、独特なスタイルを向上させています。
このモデルはNevに捧げられています。
✨ 主な機能
- 専門分野最適化:ロールプレイングとストーリーライティングに特化し、特定分野で優れた性能を発揮します。
- データ混合拡張:Celeste 70B 0.1のデータを混合し拡張することで、モデルの汎用性、創造性、独特なスタイルを強化しています。
- バージョン最適化:0.2バージョンでは、学習ハイパーパラメータを最適化し、シーケンス長を増やしています。長文脈での命令遵守能力が向上し、重複内容が減少しています。
⚠️ 重要提示
⚠️ 重要提示
LLM - Compressorの量子化は正常に動作しないようで、通常よりも質が大幅に低下しています。以前のバージョンではこの問題は見られませんでした。GGUFとGPTQは影響を受けないようです。
📚 ドキュメント
バージョン説明
0.2バージョンでは、学習ハイパーパラメータを最適化し、シーケンス長を増やしています。長文脈での命令遵守能力が向上し、重複内容が減少しています。
プロンプト形式
プロンプト形式はChatMLです。
推奨サンプラー値
- 温度(Temperature):0.8
- 最小確率(Min - P):0.05
- トップA(Top - A):0.3
- 繰り返しペナルティ(Repetition Penalty):1.03
推奨SillyTavernプリセット
学習データ
- Celeste 70B 0.1のデータ混合(Opus Instructサブセットを除く)。詳細はこのモデルのカードを参照してください。
- KalomazeのOpus_Instruct_25kデータセット(拒否応答データをフィルタリング)。
- GrypheのChatGPT - 4o - WritingPromptsのサブセット(1k行)。
- GrypheのSonnet3.5 - Charcards - Roleplayのサブセット(2k行)。
- EpiculousのSynthstructとSynthRPデータセット。
- Dolphin - 2.9.3のサブセット(フィルタリングされたnot_samanthaと一部のsystemchatを含む)。
学習時間とハードウェア
8台のH100 SXMで17時間学習しました。
将来のモデルライセンス声明
すべての将来のEVA - Unit - 01モデルについて、ライセンスではInfermaticおよびその従業員または有料関連者がEVAモデルを使用、配布、ダウンロードまたはその他の方法で利用することを禁止します。これは既存のライセンスには遡及適用できませんが、Infermaticに対して、不正な利益を得るためのモデルの使用を直ちに停止するよう正式に要請します。ただし、現時点でこれが遵守されるとは思われません。EVAモデルは今後もFeatherless、ArliAI(将来)およびその他のホスティングを承諾するプラットフォームで提供され、ローカルおよびクラウドでの使用も可能です。
🔧 技術詳細
Axolotl設定を表示
Axolotlバージョン:0.4.1
base_model: Qwen/Qwen2.5-72B
load_in_8bit: false
load_in_4bit: false
strict: false
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_swiglu: true
liger_fused_linear_cross_entropy: true
# plugins:
# - axolotl.integrations.spectrum.SpectrumPlugin
# spectrum_top_fraction: 0.5
# # Optional if using a pre-scanned model as your base_model. Useful if using a model mirror
# spectrum_model_name: Qwen/Qwen2.5-32B
datasets:
- path: datasets/Celeste_Filtered_utf8fix.jsonl
type: sharegpt
- path: datasets/deduped_not_samantha_norefusals.jsonl
type: sharegpt
- path: datasets/deduped_SynthRP-Gens_processed_ShareGPT_converted_cleaned.jsonl
type: sharegpt
- path: datasets/deduped_Synthstruct-Gens_processed_sharegpt_converted_cleaned.jsonl
type: sharegpt
- path: datasets/Gryphe-4o-WP-filtered-sharegpt_utf8fix.jsonl
type: sharegpt
- path: datasets/opus-instruct-22k-no_refusals-filtered_utf8fix.jsonl
type: sharegpt
- path: datasets/Sonnet3-5-charcard-names-filtered-sharegpt_utf8fix.jsonl
type: sharegpt
- path: datasets/SystemChat_subset_filtered_sharegpt_utf8fix.jsonl
type: sharegpt
chat_template: chatml
shuffle_merged_datasets: true
val_set_size: 0.001
output_dir: EVA-Qwen2.5-72B-SFFT-v0.2
sequence_len: 10240
sample_packing: true
eval_sample_packing: false
pad_to_sequence_len: false
# adapter: qlora
# lora_model_dir:
# lora_r: 64
# lora_alpha: 128
# lora_dropout: 0.05
# lora_target_linear: true
# peft_use_dora: true
unfrozen_parameters:
- ^lm_head.weight$
- ^model.embed_tokens.weight$
# mlp.down_proj layers
- model.layers.62.mlp.down_proj
- model.layers.64.mlp.down_proj
- model.layers.63.mlp.down_proj
- model.layers.66.mlp.down_proj
- model.layers.65.mlp.down_proj
- model.layers.67.mlp.down_proj
- model.layers.68.mlp.down_proj
- model.layers.31.mlp.down_proj
- model.layers.60.mlp.down_proj
- model.layers.69.mlp.down_proj
- model.layers.61.mlp.down_proj
- model.layers.59.mlp.down_proj
- model.layers.30.mlp.down_proj
- model.layers.70.mlp.down_proj
- model.layers.32.mlp.down_proj
- model.layers.34.mlp.down_proj
- model.layers.33.mlp.down_proj
- model.layers.76.mlp.down_proj
- model.layers.72.mlp.down_proj
- model.layers.71.mlp.down_proj
- model.layers.58.mlp.down_proj
- model.layers.75.mlp.down_proj
- model.layers.29.mlp.down_proj
- model.layers.56.mlp.down_proj
- model.layers.26.mlp.down_proj
- model.layers.35.mlp.down_proj
- model.layers.28.mlp.down_proj
- model.layers.57.mlp.down_proj
- model.layers.77.mlp.down_proj
- model.layers.36.mlp.down_proj
- model.layers.27.mlp.down_proj
- model.layers.25.mlp.down_proj
- model.layers.78.mlp.down_proj
- model.layers.37.mlp.down_proj
- model.layers.73.mlp.down_proj
- model.layers.55.mlp.down_proj
- model.layers.54.mlp.down_proj
- model.layers.74.mlp.down_proj
- model.layers.24.mlp.down_proj
- model.layers.53.mlp.down_proj
# mlp.gate_proj layers
- model.layers.78.mlp.gate_proj
- model.layers.77.mlp.gate_proj
- model.layers.76.mlp.gate_proj
- model.layers.79.mlp.gate_proj
- model.layers.75.mlp.gate_proj
- model.layers.74.mlp.gate_proj
- model.layers.73.mlp.gate_proj
- model.layers.72.mlp.gate_proj
- model.layers.71.mlp.gate_proj
- model.layers.70.mlp.gate_proj
- model.layers.69.mlp.gate_proj
- model.layers.57.mlp.gate_proj
- model.layers.54.mlp.gate_proj
- model.layers.55.mlp.gate_proj
- model.layers.68.mlp.gate_proj
- model.layers.63.mlp.gate_proj
- model.layers.53.mlp.gate_proj
- model.layers.44.mlp.gate_proj
- model.layers.45.mlp.gate_proj
- model.layers.49.mlp.gate_proj
- model.layers.58.mlp.gate_proj
- model.layers.46.mlp.gate_proj
- model.layers.56.mlp.gate_proj
- model.layers.67.mlp.gate_proj
- model.layers.62.mlp.gate_proj
- model.layers.50.mlp.gate_proj
- model.layers.64.mlp.gate_proj
- model.layers.52.mlp.gate_proj
- model.layers.40.mlp.gate_proj
- model.layers.43.mlp.gate_proj
- model.layers.48.mlp.gate_proj
- model.layers.66.mlp.gate_proj
- model.layers.47.mlp.gate_proj
- model.layers.59.mlp.gate_proj
- model.layers.65.mlp.gate_proj
- model.layers.61.mlp.gate_proj
- model.layers.60.mlp.gate_proj
- model.layers.42.mlp.gate_proj
- model.layers.51.mlp.gate_proj
- model.layers.41.mlp.gate_proj
# mlp.up_proj layers
- model.layers.70.mlp.up_proj
- model.layers.69.mlp.up_proj
- model.layers.71.mlp.up_proj
- model.layers.68.mlp.up_proj
- model.layers.72.mlp.up_proj
- model.layers.67.mlp.up_proj
- model.layers.66.mlp.up_proj
- model.layers.73.mlp.up_proj
- model.layers.46.mlp.up_proj
- model.layers.63.mlp.up_proj
- model.layers.75.mlp.up_proj
- model.layers.76.mlp.up_proj
- model.layers.74.mlp.up_proj
- model.layers.45.mlp.up_proj
- model.layers.62.mlp.up_proj
- model.layers.64.mlp.up_proj
- model.layers.65.mlp.up_proj
- model.layers.44.mlp.up_proj
- model.layers.53.mlp.up_proj
- model.layers.47.mlp.up_proj
- model.layers.49.mlp.up_proj
- model.layers.48.mlp.up_proj
- model.layers.57.mlp.up_proj
- model.layers.43.mlp.up_proj
- model.layers.42.mlp.up_proj
- model.layers.56.mlp.up_proj
- model.layers.61.mlp.up_proj
- model.layers.54.mlp.up_proj
- model.layers.40.mlp.up_proj
- model.layers.55.mlp.up_proj
- model.layers.77.mlp.up_proj
- model.layers.60.mlp.up_proj
- model.layers.41.mlp.up_proj
- model.layers.35.mlp.up_proj
- model.layers.37.mlp.up_proj
- model.layers.58.mlp.up_proj
- model.layers.34.mlp.up_proj
- model.layers.38.mlp.up_proj
- model.layers.33.mlp.up_proj
- model.layers.39.mlp.up_proj
# self_attn.k_proj layers
- model.layers.36.self_attn.k_proj
- model.layers.79.self_attn.k_proj
- model.layers.35.self_attn.k_proj
- model.layers.34.self_attn.k_proj
- model.layers.37.self_attn.k_proj
- model.layers.33.self_attn.k_proj
- model.layers.38.self_attn.k_proj
- model.layers.39.self_attn.k_proj
- model.layers.74.self_attn.k_proj
- model.layers.77.self_attn.k_proj
- model.layers.41.self_attn.k_proj
- model.layers.69.self_attn.k_proj
- model.layers.32.self_attn.k_proj
- model.layers.78.self_attn.k_proj
- model.layers.30.self_attn.k_proj
- model.layers.70.self_attn.k_proj
- model.layers.25.self_attn.k_proj
- model.layers.42.self_attn.k_proj
- model.layers.29.self_attn.k_proj
- model.layers.31.self_attn.k_proj
- model.layers.68.self_attn.k_proj
- model.layers.66.self_attn.k_proj
- model.layers.22.self_attn.k_proj
- model.layers.65.self_attn.k_proj
- model.layers.44.self_attn.k_proj
- model.layers.40.self_attn.k_proj
- model.layers.63.self_attn.k_proj
- model.layers.23.self_attn.k_proj
- model.layers.28.self_attn.k_proj
- model.layers.24.self_attn.k_proj
- model.layers.26.self_attn.k_proj
- model.layers.67.self_attn.k_proj
- model.layers.75.self_attn.k_proj
- model.layers.27.self_attn.k_proj
- model.layers.57.self_attn.k_proj
- model.layers.64.self_attn.k_proj
- model.layers.71.self_attn.k_proj
- model.layers.61.self_attn.k_proj
- model.layers.72.self_attn.k_proj
- model.layers.73.self_attn.k_proj
# self_attn.o_proj layers
- model.layers.69.self_attn.o_proj
- model.layers.39.self_attn.o_proj
- model.layers.16.self_attn.o_proj
- model.layers.14.self_attn.o_proj
- model.layers.19.self_attn.o_proj
- model.layers.42.self_attn.o_proj
- model.layers.12.self_attn.o_proj
- model.layers.15.self_attn.o_proj
- model.layers.17.self_attn.o_proj
- model.layers.38.self_attn.o_proj
- model.layers.23.self_attn.o_proj
- model.layers.22.self_attn.o_proj
- model.layers.13.self_attn.o_proj
- model.layers.29.self_attn.o_proj
- model.layers.41.self_attn.o_proj
- model.layers.44.self_attn.o_proj
- model.layers.46.self_attn.o_proj
- model.layers.45.self_attn.o_proj
- model.layers.43.self_attn.o_proj
- model.layers.49.self_attn.o_proj
- model.layers.30.self_attn.o_proj
- model.layers.26.self_attn.o_proj
- model.layers.25.self_attn.o_proj
- model.layers.37.self_attn.o_proj
- model.layers.47.self_attn.o_proj
- model.layers.11.self_attn.o_proj
- model.layers.18.self_attn.o_proj
- model.layers.28.self_attn.o_proj
- model.layers.20.self_attn.o_proj
- model.layers.27.self_attn.o_proj
- model.layers.53.self_attn.o_proj
- model.layers.52.self_attn.o_proj
- model.layers.35.self_attn.o_proj
- model.layers.71.self_attn.o_proj
- model.layers.10.self_attn.o_proj
- model.layers.3.self_attn.o_proj
- model.layers.21.self_attn.o_proj
- model.layers.24.self_attn.o_proj
- model.layers.68.self_attn.o_proj
- model.layers.48.self_attn.o_proj
# self_attn.q_proj layers
- model.layers.1.self_attn.q_proj
- model.layers.2.self_attn.q_proj
- model.layers.3.self_attn.q_proj
- model.layers.0.self_attn.q_proj
- model.layers.5.self_attn.q_proj
- model.layers.4.self_attn.q_proj
- model.layers.6.self_attn.q_proj
- model.layers.8.self_attn.q_proj
- model.layers.7.self_attn.q_proj
- model.layers.9.self_attn.q_proj
- model.layers.10.self_attn.q_proj
- model.layers.68.self_attn.q_proj
- model.layers.25.self_attn.q_proj
- model.layers.12.self_attn.q_proj
- model.layers.54.self_attn.q_proj
- model.layers.55.self_attn.q_proj
- model.layers.61.self_attn.q_proj
- model.layers.18.self_attn.q_proj
- model.layers.49.self_attn.q_proj
- model.layers.66.self_attn.q_proj
- model.layers.72.self_attn.q_proj
- model.layers.11.self_attn.q_proj
- model.layers.52.self_attn.q_proj
- model.layers.64.self_attn.q_proj
- model.layers.15.self_attn.q_proj
- model.layers.60.self_attn.q_proj
- model.layers.50.self_attn.q_proj
- model.layers.59.self_attn.q_proj
- model.layers.53.self_attn.q_proj
- model.layers.48.self_attn.q_proj
- model.layers.57.self_attn.q_proj
- model.layers.70.self_attn.q_proj
- model.layers.17.self_attn.q_proj
- model.layers.67.self_attn.q_proj
- model.layers.71.self_attn.q_proj
- model.layers.62.self_attn.q_proj
- model.layers.51.self_attn.q_proj
- model.layers.19.self_attn.q_proj
- model.layers.58.self_attn.q_proj
- model.layers.13.self_attn.q_proj
# self_attn.v_proj layers
- model.layers.23.self_attn.v_proj
- model.layers.25.self_attn.v_proj
- model.layers.26.self_attn.v_proj
- model.layers.27.self_attn.v_proj
- model.layers.28.self_attn.v_proj
- model.layers.29.self_attn.v_proj
- model.layers.30.self_attn.v_proj
- model.layers.31.self_attn.v_proj
- model.layers.34.self_attn.v_proj
- model.layers.35.self_attn.v_proj
- model.layers.36.self_attn.v_proj
- model.layers.37.self_attn.v_proj
- model.layers.38.self_attn.v_proj
- model.layers.42.self_attn.v_proj
- model.layers.48.self_attn.v_proj
- model.layers.57.self_attn.v_proj
- model.layers.58.self_attn.v_proj
- model.layers.61.self_attn.v_proj
- model.layers.63.self_attn.v_proj
- model.layers.64.self_attn.v_proj
- model.layers.65.self_attn.v_proj
- model.layers.66.self_attn.v_proj
- model.layers.69.self_attn.v_proj
- model.layers.70.self_attn.v_proj
- model.layers.74.self_attn.v_proj
- model.layers.75.self_attn.v_proj
- model.layers.72.self_attn.v_proj
- model.layers.39.self_attn.v_proj
- model.layers.41.self_attn.v_proj
- model.layers.40.self_attn.v_proj
- model.layers.33.self_attn.v_proj
- model.layers.59.self_attn.v_proj
- model.layers.16.self_attn.v_proj
- model.layers.15.self_attn.v_proj
- model.layers.76.self_attn.v_proj
- model.layers.24.self_attn.v_proj
- model.layers.68.self_attn.v_proj
- model.layers.67.self_attn.v_proj
- model.layers.55.self_attn.v_proj
- model.layers.44.self_attn.v_proj
wandb_project: EVA-Qwen2.5-72B-SFFT-v0.2
wandb_entity:
wandb_watch:
wandb_name: Unit-02
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: paged_ademamix_8bit
lr_scheduler: cosine
learning_rate: 0.00003
max_grad_norm: 1.5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: "unsloth"
# gradient_checkpointing_kwargs:
# use_reentrant: true
early_stopping_patience:
resume_from_checkpoint: EVA-Qwen2.5-72B-SFFT-v0.2/checkpoint-128
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 20
evals_per_epoch: 4
saves_per_epoch: 4
save_safetensors: true
save_total_limit: 1
hub_model_id:
hub_strategy:
debug:
deepspeed: deepspeed_configs/zero3_bf16_cpuoffload_params.json
weight_decay: 0.12
# fsdp:
# - full_shard
# - auto_wrap
# fsdp_config:
# fsdp_limit_all_gathers: true
# fsdp_sync_module_states: false
# fsdp_offload_params: true
# fsdp_cpu_ram_efficient_loading: true
# fsdp_auto_wrap_policy: TRANSFORMER_BASED_WRAP
# fsdp_transformer_layer_cls_to_wrap: Qwen2DecoderLayer
# fsdp_activation_checkpointing: true
# fsdp_state_dict_type: SHARDED_STATE_DICT # Changed from FULL_STATE_DICT
# fsdp_sharding_strategy: FULL_SHARD
# fsdp_forward_prefetch: false # Added
# fsdp_backward_prefetch: "BACKWARD_PRE" # Added
# fsdp_backward_prefetch_limit: 1 # Added
# fsdp_mixed_precision: BF16 # Added
📊 評価結果
指標 | 値 |
---|---|
平均値 | 43.54 |
IFEval (0 - Shot) | 68.79 |
BBH (3 - Shot) | 59.07 |
MATH Lvl 5 (4 - Shot) | 39.05 |
GPQA (0 - shot) | 21.14 |
MuSR (0 - shot) | 19.73 |
MMLU - PRO (5 - shot) | 53.48 |
📄 ライセンス
このモデルはQwenライセンスを使用しています。
Phi 2 GGUF
Other
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル Supports Multiple Languages
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル English
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル English
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル English
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル Supports Multiple Languages
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル English
R
FacebookAI
9.3M
488
Opt 125m
Other
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル English
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers Supports Multiple Languages

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル Supports Multiple Languages
T
google-t5
5.4M
702
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98