🚀 shisa-v1-llama3-8b 模型介绍
本模型基于 Llama 3 架构,在特定数据集上微调得到,具备良好的性能表现,可用于多种自然语言处理任务。
🚀 快速开始
本模型是 meta-llama/Meta-Llama-3-8B-Instruct 在特定数据集上的微调版本。在评估集上取得了如下结果:
✨ 主要特性
- 性能优异:在多项测试中表现出色,如在不同学习率下的模型对比测试中,
shisa-v1-llama3-8b.lr-8e6
取得了较高的平均得分。
- 多语言支持:使用了包含英文和日文的数据集
augmxnt/ultra-orca-boros-en-ja-v1
进行训练,具备一定的多语言处理能力。
📦 安装指南
暂未提供相关安装步骤,可参考原基础模型 meta-llama/Meta-Llama-3-8B-Instruct 的安装说明。
💻 使用示例
暂未提供具体使用示例代码。
📚 详细文档
模型信息
属性 |
详情 |
许可证 |
llama3 |
基础模型 |
meta-llama/Meta-Llama-3-8B-Instruct |
数据集 |
augmxnt/ultra-orca-boros-en-ja-v1 |
模型测试结果
根据 Llama 3 社区许可协议,此模型的正式名称为 "LLama 3 shisa-v1-llama3-8b"
为降低方差,进行了 2 轮测试,所有测试均使用温度 0.2、最小概率 0.1、频率惩罚 0.5。
模型 |
平均得分 |
ELYZA100 |
JA MT - Bench |
Rakuda |
Tengu - Bench |
日文占比 |
shisa-v1-llama3-8b.lr-2e4 |
3.97 |
4.60 |
4.54 |
3.33 |
3.42 |
92.42% |
shisa-v1-llama3-8b.lr-5e5 |
5.73 |
6.28 |
6.45 |
5.37 |
4.81 |
90.93% |
shisa-v1-llama3-8b.2e5 |
6.33 |
6.51 |
6.66 |
6.68 |
5.48 |
91.51% |
shisa-v1-llama3-8b (8 - e6) |
6.59 |
6.67 |
6.95 |
7.05 |
5.68 |
91.30% |
shisa-v1-llama3-8b.5e6 |
6.42 |
6.33 |
6.76 |
7.15 |
5.45 |
91.56% |
shisa-v1-llama3-8b.2e6 |
6.31 |
6.26 |
6.88 |
6.73 |
5.38 |
92.00% |
- 学习率为 2e - 4 和 5e - 5 的模型明显过拟合,性能显著下降。
- 学习率为 2e - 5 的模型处于临界状态,
weightwacher
显示其嵌入层略有过拟合,但 NEFTune
版本无此问题。
- 学习率为 8e - 6 的模型表现最佳,5e - 6 的模型表现也略优于 2e - 5 的模型。
与其他模型的对比
模型 |
平均得分 |
ELYZA - tasks - 100 |
MT - Bench |
Rakuda |
Tengu - Bench |
gpt - 4 - turbo - 2024 - 04 - 09 |
8.75 |
8.78 |
8.74 |
9.18 |
8.31 |
gpt - 4o - 2024 - 05 - 13 |
8.72 |
8.88 |
8.69 |
9.15 |
8.16 |
gemini - 1.5 - pro |
8.58 |
8.58 |
8.93 |
9.20 |
7.61 |
claude - 3 - opus - 20240229 |
8.55 |
8.64 |
8.58 |
8.75 |
8.23 |
CohereForAI/c4ai - command - r - plus |
7.69 |
7.50 |
7.43 |
9.05 |
6.79 |
shisa - ai/shisa - v1 - llama3 - 70b |
7.30 |
7.34 |
7.67 |
8.15 |
6.04 |
gpt - 3.5 - turbo - 0125 |
7.17 |
7.24 |
6.98 |
7.64 |
6.82 |
shisa - ai/shisa - v1 - llama3 - 70b.2e5 |
7.17 |
7.16 |
7.45 |
7.98 |
6.09 |
karakuri - ai/karakuri - lm - 8x7b - chat - v0.1 |
7.00 |
7.18 |
6.30 |
7.98 |
6.55 |
karakuri - ai/karakuri - lm - 70b - chat - v0.1 |
6.84 |
6.86 |
6.43 |
7.85 |
6.23 |
lightblue/ao - karasu - 72B |
6.81 |
7.19 |
6.54 |
7.25 |
6.27 |
shisa - ai/shisa - v1 - llama3 - 8b |
6.59 |
6.67 |
6.95 |
7.05 |
5.68 |
shisa - ai/shisa - swallowmx - 13a47b - v1 |
6.17 |
6.48 |
6.07 |
7.11 |
5.03 |
lightblue/suzume - llama - 3 - 8B - japanese |
5.96 |
6.68 |
4.96 |
6.68 |
5.53 |
augmxnt/shisa - gamma - 7b - v1 |
5.82 |
5.96 |
5.02 |
6.85 |
5.47 |
shisa - ai/shisa - v1 - phi3 - 14b |
5.77 |
6.28 |
5.26 |
6.55 |
5.01 |
shisa - ai/shisa - v1 - gemma - 8b |
5.64 |
6.50 |
5.42 |
5.10 |
5.55 |
Rakuten/RakutenAI - 7B - chat |
5.58 |
5.92 |
4.60 |
6.58 |
5.24 |
lightblue/qarasu - 14B - chat - plus - unleashed |
5.20 |
5.58 |
4.74 |
5.46 |
5.01 |
shisa - ai/shisa - v1 - mistral0.3 - 7b |
5.11 |
5.64 |
6.10 |
3.83 |
4.86 |
cyberagent/calm2 - 7b - chat |
4.76 |
4.90 |
3.58 |
5.75 |
4.81 |
mistralai/Mistral - 7B - Instruct - v0.2 |
4.69 |
5.78 |
4.65 |
3.80 |
4.53 |
shisa - ai/shisa - v1 - yi1.5 - 9b |
4.63 |
5.98 |
4.28 |
3.26 |
5.00 |
augmxnt/shisa - 7b - v1 |
4.50 |
4.63 |
3.95 |
4.89 |
4.53 |
axolotl 配置
此模型的训练计算资源由 Ubitus 慷慨提供。

查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
chat_template: llama3
datasets:
- path: augmxnt/ultra-orca-boros-en-ja-v1
type: sharegpt
dataset_prepared_path: last_run_prepared
val_set_size: 0.05
output_dir: ./outputs/lr-8e6
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
use_wandb: true
wandb_project: shisa-v2
wandb_entity: augmxnt
wandb_name: shisa-v1-llama3-8b.lr-8e6
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: paged_adamw_8bit
lr_scheduler: linear
learning_rate: 8e-6
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 100
evals_per_epoch: 2
eval_table_size:
saves_per_epoch: 0
debug:
deepspeed: axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.00
fsdp:
fsdp_config:
special_tokens:
pad_token: <|end_of_text|>
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:8e - 06
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多 GPU
- 设备数量:8
- 梯度累积步数:8
- 总训练批次大小:64
- 总评估批次大小:8
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:100
- 训练轮数:3
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.3951 |
0.0064 |
1 |
0.8645 |
0.8731 |
0.5020 |
79 |
0.5577 |
0.8405 |
1.0040 |
158 |
0.5138 |
0.6888 |
1.4853 |
237 |
0.4982 |
0.6674 |
1.9873 |
316 |
0.4870 |
0.5859 |
2.4694 |
395 |
0.4983 |
框架版本
- Transformers 4.40.2
- Pytorch 2.3.0 + cu121
- Datasets 2.19.1
- Tokenizers 0.19.1
🔧 技术细节
暂未提供相关技术细节。
📄 许可证
本模型使用 llama3 许可证。