Einstein V6.1 Llama3 8B
模型简介
该模型是在Llama-3-8B基础上通过多阶段微调优化的科学专用模型,擅长处理物理、化学、生物、数学等STEM学科问题
模型特点
STEM领域优化
在物理、化学、生物、数学等科学数据集上专门微调,显著提升STEM任务表现
多阶段指令微调
采用ChatML格式的多样化指令数据集进行训练,增强对话和指令跟随能力
高性能推理
在多个科学基准测试中表现优异,如AI2 ARC(62.46%)、MMLU(66.19%)等
模型能力
科学问答
数学问题求解
物理概念解释
化学方程式生成
生物学术语解释
多步骤推理
技术文档生成
使用案例
教育
科学作业辅导
帮助学生解答物理、化学等学科的作业问题
在ScienceQA等测试集上表现良好
STEM概念解释
用通俗语言解释复杂的科学概念
研究
文献理解辅助
帮助研究人员快速理解科学文献中的关键概念
实验设计建议
基于已有研究提供实验设计思路
🚀 🔬 Einstein-v6.1-Llama3-8B
这是一个基于多样化数据集对 meta-llama/Meta-Llama-3-8B 进行全量微调的模型。它使用 8xRTX3090
+ 1xRTXA6000
显卡,借助 axolotl 工具完成微调。该模型的训练由 sablo.ai 赞助。
🚀 快速开始
模型基础信息
属性 | 详情 |
---|---|
模型类型 | Einstein-v6.1-Llama3-8B |
基础模型 | meta-llama/Meta-Llama-3-8B |
训练数据 | allenai/ai2_arc、camel-ai/physics、camel-ai/chemistry等众多数据集 |
提示模板
你可以在使用该模型时使用 ChatML 提示模板:
ChatML
<|im_start|>system
{system}<|im_end|>
<|im_start|>user
{user}<|im_end|>
<|im_start|>assistant
{asistant}<|im_end|>
这个提示模板可以作为 聊天模板 使用,这意味着你可以使用 tokenizer.apply_chat_template()
方法来格式化消息:
messages = [
{"role": "system", "content": "You are helpful AI asistant."},
{"role": "user", "content": "Hello!"}
]
gen_input = tokenizer.apply_chat_template(message, return_tensors="pt")
model.generate(**gen_input)
✨ 主要特性
- 基于 Meta-Llama-3-8B 基础模型进行全量微调,在多个科学领域数据集上进行训练,具备广泛的科学知识。
- 使用 ChatML 提示模板,方便与模型进行交互。
- 有多种量化版本可供选择,适应不同的应用场景。
📚 详细文档
axolotl 配置
查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
chat_template: chatml
datasets:
- path: data/merged_all.json
ds_type: json
type: alpaca
conversation: chatml
- path: data/gpteacher-instruct-special-alpaca.json
ds_type: json
type: gpteacher
conversation: chatml
- path: data/wizardlm_evol_instruct_70k_random_half.json
ds_type: json
type: alpaca
conversation: chatml
- path: data/capybara_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/synthia-v1.3_sharegpt_12500.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/cot_alpaca_gpt4_extracted_openhermes_2.5_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/slimorca_dedup_filtered_95k_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/airoboros_3.2_without_contextual_slimorca_orca_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/allenai_wild_chat_gpt4_english_toxic_random_half_4k_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
- path: data/pippa_bagel_repo_3k_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/gpt4_data_lmys_1m_sharegpt.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/sharegpt_gpt4_english.json
ds_type: json
type: sharegpt
conversation: chatml
- path: data/no_robots_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
- path: data/oasst_top1_from_fusechatmixture_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
- path: data/everythinglm-data-v3_sharegpt.json
ds_type: json
type: sharegpt
strict: false
conversation: chatml
dataset_prepared_path: last_run_prepared
val_set_size: 0.002
output_dir: ./Einstein-v6.1-Llama3-8B-model
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: false
wandb_project: Einstein
wandb_entity:
wandb_watch:
wandb_name: Einstein-v6.1-Llama3-2-epoch
wandb_log_model:
hub_model_id: Weyaxi/Einstein-v6.1-Llama3-8B
save_safetensors: true
gradient_accumulation_steps: 4
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit # look
lr_scheduler: cosine
learning_rate: 0.000005 # look
train_on_inputs: false
group_by_length: false
bf16: true
fp16: false
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 2
eval_table_size:
eval_table_max_new_tokens: 128
saves_per_epoch: 2
debug:
deepspeed: zero3_bf16_cpuoffload_params.json
weight_decay: 0.0
fsdp:
fsdp_config:
special_tokens:
bos_token: "<s>"
eos_token: "<|im_end|>"
unk_token: "<unk>"
pad_token: <|end_of_text|> # changed
tokens:
- "<|im_start|>"
数据集使用情况
本模型训练使用的数据集列在模型卡片的元数据部分。请注意,元数据中提到的某些数据集可能已经根据各种标准进行了过滤。过滤过程的结果及其输出位于本仓库的数据文件夹中: Weyaxi/Einstein-v6.1-Llama3-8B/data
量化版本
- GGUF @bartowski
- https://huggingface.co/bartowski/Einstein-v6.1-Llama3-8B-GGUF
- ExLlamaV2 @bartowski
- https://huggingface.co/bartowski/Einstein-v6.1-Llama3-8B-exl2
- AWQ @solidrust
- https://huggingface.co/solidrust/Einstein-v6.1-Llama3-8B-AWQ
评估结果
Open LLM Leaderboard 评估结果
详细结果可查看 此处
指标 | 值 |
---|---|
平均值 | 68.60 |
AI2 推理挑战 (25 次样本学习) | 62.46 |
HellaSwag (10 次样本学习) | 82.41 |
MMLU (5 次样本学习) | 66.19 |
TruthfulQA (0 次样本学习) | 55.10 |
Winogrande (5 次样本学习) | 79.32 |
GSM8k (5 次样本学习) | 66.11 |
Open LLM Leaderboard v2 评估结果
详细结果可查看 此处
指标 | 值 |
---|---|
平均值 | 19.99 |
IFEval (0 次样本学习) | 45.68 |
BBH (3 次样本学习) | 29.38 |
MATH Lvl 5 (4 次样本学习) | 5.74 |
GPQA (0 次样本学习) | 4.25 |
MuSR (0 次样本学习) | 11.23 |
MMLU-PRO (5 次样本学习) | 23.68 |
相关资源、讨论和评测
🐦 公告推文
- https://twitter.com/Weyaxi/status/1783050724659675627
🔍 Reddit 帖子 (r/LocalLLaMA)
- https://www.reddit.com/r/LocalLLaMA/comments/1cdlym1/introducing_einstein_v61_based_on_the_new_llama3/
▶️ Youtube 视频
📱 Octopus-V4-3B
- Octopus-V4-3B 在其模型中利用了 Einstein-v6.1-Llama3-8B 出色的物理能力。
🤖 训练相关额外信息
本模型进行了 2 个 epoch 的全量微调,总步数为 2026。
损失图
🤝 致谢
感谢 sablo.ai 对本模型训练的赞助。感谢数据集部分提到的所有数据集作者。感谢 axolotl 提供的工具,让我能够创建这个模型。感谢所有开源 AI 社区的贡献者。
如果你想支持我: ☕ 请我喝杯咖啡
📄 许可证
本模型使用其他许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98