Dolphin 2.9.1 Yi 1.5 34b
D
Dolphin 2.9.1 Yi 1.5 34b
由dphn開發
Dolphin 2.9.1 Yi 1.5 34b是一款高性能大語言模型,基於Yi-1.5-34b架構,經過精心訓練,提供高質量的交互體驗。
下載量 4.7M
發布時間 : 5/18/2024
模型概述
該模型具備強大的知識理解和應用能力,支持長序列處理和多技能融合,適用於多種指令處理、對話和編碼任務。
模型特點
高性能表現
在MMLU測試中取得77.4的高分,展現出強大的知識理解和應用能力。
長序列處理
通過特殊設置實現8k序列長度的訓練,支持處理長文本。
多技能融合
具備多種指令處理、對話和編碼技能,支持函數調用和初步的智能體能力。
無審查設計
數據集經過過濾,去除對齊和偏差,模型更加靈活,但需自行添加對齊層。
模型能力
文本生成
對話系統
代碼生成
函數調用
長文本處理
使用案例
對話系統
智能助手
作為智能助手提供高質量的對話交互。
對話表現十分出色
代碼生成
代碼補全
支持代碼生成和補全任務。
🚀 Dolphin 2.9.1 Yi 1.5 34b 🐬
Dolphin 2.9.1 Yi 1.5 34b是一款經過精心訓練的模型,由Eric Hartford、Lucas Atkins、Fernando Fernandes以及Cognitive Computations團隊打造。該模型在性能上表現出色,能為用戶提供高質量的交互體驗。
🚀 快速開始
此模型基於Yi - 1.5 - 34b,採用了FFT技術,所有參數均為16bit。在34b的模型上,MMLU得分達到了77.4,並且對話表現十分出色。雖然最大位置嵌入為4k,但使用了rope theta為1000000.0,並以8k的序列長度進行訓練,後續還計劃在即將推出的32k版本上進行訓練。
✨ 主要特性
- 高性能表現:在MMLU測試中取得了77.4的高分,展現出強大的知識理解和應用能力。
- 長序列處理:儘管基礎模型上下文為4k,但通過特殊設置,實現了8k序列長度的訓練,為處理長文本提供了支持。
- 多技能融合:具備多種指令處理、對話和編碼技能,還擁有初步的智能體能力,支持函數調用。
- 無審查設計:對數據集進行了過濾,去除了對齊和偏差,使模型更加靈活,但使用時建議自行添加對齊層。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
Dolphin 2.9.1使用ChatML提示模板格式,示例如下:
<|im_start|>system
You are Dolphin, a helpful AI assistant.<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📚 詳細文檔
評估結果
訓練配置
該模型使用Axolotl進行訓練,以下是詳細的Axolotl配置:
查看axolotl配置
axolotl版本:0.4.0
base_model: 01-ai/Yi-1.5-34B
model_type: LlamaForCausalLM
tokenizer_type: LlamaTokenizer
trust_remote_code: true
# load_in_8bit: false
# load_in_4bit: true
# strict: false
# adapter: qlora
# lora_modules_to_save: [embed_tokens, lm_head]
# lora_r: 32
# lora_alpha: 16
# lora_dropout: 0.05
# lora_target_linear: True
# lora_fan_in_fan_out:
datasets:
- path: /workspace/datasets/dolphin-2.9/dolphin201-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/dolphin-coder-translate-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/dolphin-coder-codegen-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/m-a-p_Code-Feedback-sharegpt-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/m-a-p_CodeFeedback-Filtered-Instruction-sharegpt-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/not_samantha_norefusals.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/Orca-Math-resort-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/agent_instruct_react_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_instruct_j1s1_3k_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_negative_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_react_10p_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_tflan_cot_30p_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/openhermes200k_unfiltered.jsonl
type: sharegpt
conversation: chatml
chat_template: chatml
dataset_prepared_path: yi34b
val_set_size: 0.01
output_dir: ./out-yi
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
wandb_project: dolphin-2.9-yi-34b
wandb_watch:
wandb_run_id:
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: true
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
# resume_from_checkpoint: /workspace/axolotl/dbrx-checkpoint
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 4
eval_table_size:
saves_per_epoch: 4
save_total_limit: 2
save_steps:
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.05
fsdp:
fsdp_config:
special_tokens:
bos_token: "<|startoftext|>"
eos_token: "<|im_end|>"
pad_token: "<unk>"
unk_token: "<unk>"
tokens:
- "<|im_start|>"
🔧 技術細節
訓練超參數
屬性 | 詳情 |
---|---|
學習率 | 1e - 05 |
訓練批次大小 | 1 |
評估批次大小 | 1 |
隨機種子 | 42 |
分佈式類型 | 多GPU |
設備數量 | 8 |
梯度累積步數 | 8 |
總訓練批次大小 | 64 |
總評估批次大小 | 8 |
優化器 | Adam(betas = (0.9, 0.999),epsilon = 1e - 08) |
學習率調度器類型 | 餘弦 |
學習率調度器熱身步數 | 10 |
訓練輪數 | 3 |
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 |
---|---|---|---|
0.6265 | 0.0 | 1 | 0.6035 |
0.4674 | 0.25 | 327 | 0.4344 |
0.4337 | 0.5 | 654 | 0.4250 |
0.4346 | 0.75 | 981 | 0.4179 |
0.3985 | 1.0 | 1308 | 0.4118 |
0.3128 | 1.23 | 1635 | 0.4201 |
0.3261 | 1.48 | 1962 | 0.4157 |
0.3259 | 1.73 | 2289 | 0.4122 |
0.3126 | 1.98 | 2616 | 0.4079 |
0.2265 | 2.21 | 2943 | 0.4441 |
0.2297 | 2.46 | 3270 | 0.4427 |
0.2424 | 2.71 | 3597 | 0.4425 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.2+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 許可證
該模型基於Apache 2.0許可證,允許包括商業用途在內的任何使用方式。模型訓練數據來源於GPT4等其他模型。
⚠️ 重要提示
此模型未經過審查,對數據集進行了過濾以去除對齊和偏差。這使得模型更加靈活,但也可能會生成一些不符合倫理的內容。建議在將模型作為服務公開之前,自行實現對齊層。用戶需對使用該模型生成的任何內容負責,請謹慎使用。
💡 使用建議
在使用過程中,可根據實際需求調整訓練參數,以獲得更好的性能表現。同時,關注模型的更新動態,以便及時應用新的功能和優化。
贊助致謝
感謝以下贊助商對Dolphin 2.9.1的支持:
- Crusoe Cloud - 提供了出色的按需8xH100節點。
- OnDemand - 提供推理贊助。
社區鏈接
- Discord:點擊鏈接加入社區,與開發者和其他用戶交流。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98