Einstein V6.1 Llama3 8B
模型概述
該模型是在Llama-3-8B基礎上通過多階段微調優化的科學專用模型,擅長處理物理、化學、生物、數學等STEM學科問題
模型特點
STEM領域優化
在物理、化學、生物、數學等科學數據集上專門微調,顯著提升STEM任務表現
多階段指令微調
採用ChatML格式的多樣化指令數據集進行訓練,增強對話和指令跟隨能力
高性能推理
在多個科學基準測試中表現優異,如AI2 ARC(62.46%)、MMLU(66.19%)等
模型能力
科學問答
數學問題求解
物理概念解釋
化學方程式生成
生物學術語解釋
多步驟推理
技術文檔生成
使用案例
教育
科學作業輔導
幫助學生解答物理、化學等學科的作業問題
在ScienceQA等測試集上表現良好
STEM概念解釋
用通俗語言解釋複雜的科學概念
研究
文獻理解輔助
幫助研究人員快速理解科學文獻中的關鍵概念
實驗設計建議
基於已有研究提供實驗設計思路
🚀 🔬 Einstein-v6.1-Llama3-8B
這是一個基於多樣化數據集對 meta-llama/Meta-Llama-3-8B 進行全量微調的模型。它使用 8xRTX3090
+ 1xRTXA6000
顯卡,藉助 axolotl 工具完成微調。該模型的訓練由 sablo.ai 贊助。
🚀 快速開始
模型基礎信息
屬性 | 詳情 |
---|---|
模型類型 | Einstein-v6.1-Llama3-8B |
基礎模型 | meta-llama/Meta-Llama-3-8B |
訓練數據 | allenai/ai2_arc、camel-ai/physics、camel-ai/chemistry等眾多數據集 |
提示模板
你可以在使用該模型時使用 ChatML 提示模板:
ChatML
<|im_start|>system
{system}<|im_end|>
<|im_start|>user
{user}<|im_end|>
<|im_start|>assistant
{asistant}<|im_end|>
這個提示模板可以作為 聊天模板 使用,這意味著你可以使用 tokenizer.apply_chat_template()
方法來格式化消息:
messages = [
{"role": "system", "content": "You are helpful AI asistant."},
{"role": "user", "content": "Hello!"}
]
gen_input = tokenizer.apply_chat_template(message, return_tensors="pt")
model.generate(**gen_input)
✨ 主要特性
- 基於 Meta-Llama-3-8B 基礎模型進行全量微調,在多個科學領域數據集上進行訓練,具備廣泛的科學知識。
- 使用 ChatML 提示模板,方便與模型進行交互。
- 有多種量化版本可供選擇,適應不同的應用場景。
📚 詳細文檔
axolotl 配置
查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
chat_template: chatml
datasets:
- path: data/merged_all.json
ds_type: json
type: alpaca
conversation: chatml
- path: data/gpteacher-instruct-special-alpaca.json
ds_type: json
type: gpteacher
conversation: chatml
- path: data/wizardlm_evol_instruct_70k_random_half.json
ds_type: json
type: alpaca
conversation: chatml
- path: data/capybara_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/synthia-v1.3_sharegpt_12500.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/cot_alpaca_gpt4_extracted_openhermes_2.5_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/slimorca_dedup_filtered_95k_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/airoboros_3.2_without_contextual_slimorca_orca_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/allenai_wild_chat_gpt4_english_toxic_random_half_4k_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
- path: data/pippa_bagel_repo_3k_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/gpt4_data_lmys_1m_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/sharegpt_gpt4_english.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/no_robots_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
- path: data/oasst_top1_from_fusechatmixture_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
- path: data/everythinglm-data-v3_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
dataset_prepared_path: last_run_prepared
val_set_size: 0.002
output_dir: ./Einstein-v6.1-Llama3-8B-model
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: false
wandb_project: Einstein
wandb_entity:
wandb_watch:
wandb_name: Einstein-v6.1-Llama3-2-epoch
wandb_log_model:
hub_model_id: Weyaxi/Einstein-v6.1-Llama3-8B
save_safetensors: true
gradient_accumulation_steps: 4
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit # look
lr_scheduler: cosine
learning_rate: 0.000005 # look
train_on_inputs: false
group_by_length: false
bf16: true
fp16: false
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 2
eval_table_size:
eval_table_max_new_tokens: 128
saves_per_epoch: 2
debug:
deepspeed: zero3_bf16_cpuoffload_params.json
weight_decay: 0.0
fsdp:
fsdp_config:
special_tokens:
bos_token: "<s>"
eos_token: "<|im_end|>"
unk_token: "<unk>"
pad_token: <|end_of_text|> # changed
tokens:
- "<|im_start|>"
數據集使用情況
本模型訓練使用的數據集列在模型卡片的元數據部分。請注意,元數據中提到的某些數據集可能已經根據各種標準進行了過濾。過濾過程的結果及其輸出位於本倉庫的數據文件夾中: Weyaxi/Einstein-v6.1-Llama3-8B/data
量化版本
- GGUF @bartowski
- https://huggingface.co/bartowski/Einstein-v6.1-Llama3-8B-GGUF
- ExLlamaV2 @bartowski
- https://huggingface.co/bartowski/Einstein-v6.1-Llama3-8B-exl2
- AWQ @solidrust
- https://huggingface.co/solidrust/Einstein-v6.1-Llama3-8B-AWQ
評估結果
Open LLM Leaderboard 評估結果
詳細結果可查看 此處
指標 | 值 |
---|---|
平均值 | 68.60 |
AI2 推理挑戰 (25 次樣本學習) | 62.46 |
HellaSwag (10 次樣本學習) | 82.41 |
MMLU (5 次樣本學習) | 66.19 |
TruthfulQA (0 次樣本學習) | 55.10 |
Winogrande (5 次樣本學習) | 79.32 |
GSM8k (5 次樣本學習) | 66.11 |
Open LLM Leaderboard v2 評估結果
詳細結果可查看 此處
指標 | 值 |
---|---|
平均值 | 19.99 |
IFEval (0 次樣本學習) | 45.68 |
BBH (3 次樣本學習) | 29.38 |
MATH Lvl 5 (4 次樣本學習) | 5.74 |
GPQA (0 次樣本學習) | 4.25 |
MuSR (0 次樣本學習) | 11.23 |
MMLU-PRO (5 次樣本學習) | 23.68 |
相關資源、討論和評測
🐦 公告推文
- https://twitter.com/Weyaxi/status/1783050724659675627
🔍 Reddit 帖子 (r/LocalLLaMA)
- https://www.reddit.com/r/LocalLLaMA/comments/1cdlym1/introducing_einstein_v61_based_on_the_new_llama3/
▶️ Youtube 視頻
📱 Octopus-V4-3B
- Octopus-V4-3B 在其模型中利用了 Einstein-v6.1-Llama3-8B 出色的物理能力。
🤖 訓練相關額外信息
本模型進行了 2 個 epoch 的全量微調,總步數為 2026。
損失圖
🤝 致謝
感謝 sablo.ai 對本模型訓練的贊助。感謝數據集部分提到的所有數據集作者。感謝 axolotl 提供的工具,讓我能夠創建這個模型。感謝所有開源 AI 社區的貢獻者。
如果你想支持我: ☕ 請我喝杯咖啡
📄 許可證
本模型使用其他許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98