Shisa V1 Llama3 8b
S
Shisa V1 Llama3 8b
由 shisa-ai 开发
基于Meta-Llama-3-8B-Instruct微调的日语优化大语言模型,在多个日语基准测试中表现优异
下载量 28
发布时间 : 5/21/2024
模型简介
这是一个针对日语优化的8B参数大语言模型,基于Llama 3架构微调,在ELYZA100、日语MT-Bench等日语评估基准上取得良好成绩
模型特点
日语优化
专门针对日语任务进行优化,日语字符占比达91%以上
多基准表现优异
在ELYZA100、日语MT-Bench、Rakuda等多个日语评估基准上超越同类模型
精细调优
通过不同学习率实验确定8e-6为最优参数,避免过拟合
模型能力
日语文本生成
日语问答
日语文本理解
多轮对话
使用案例
日语NLP应用
日语客服机器人
用于处理日语客户咨询
在Rakuda基准上得分7.05,优于多数同类模型
日语内容创作
生成符合日语表达习惯的文本内容
日语字符占比91.3%,表达自然度较高
🚀 shisa-v1-llama3-8b 模型介绍
本模型基于 Llama 3 架构,在特定数据集上微调得到,具备良好的性能表现,可用于多种自然语言处理任务。
🚀 快速开始
本模型是 meta-llama/Meta-Llama-3-8B-Instruct 在特定数据集上的微调版本。在评估集上取得了如下结果:
- 损失值:0.4983
✨ 主要特性
- 性能优异:在多项测试中表现出色,如在不同学习率下的模型对比测试中,
shisa-v1-llama3-8b.lr-8e6
取得了较高的平均得分。 - 多语言支持:使用了包含英文和日文的数据集
augmxnt/ultra-orca-boros-en-ja-v1
进行训练,具备一定的多语言处理能力。
📦 安装指南
暂未提供相关安装步骤,可参考原基础模型 meta-llama/Meta-Llama-3-8B-Instruct 的安装说明。
💻 使用示例
暂未提供具体使用示例代码。
📚 详细文档
模型信息
属性 | 详情 |
---|---|
许可证 | llama3 |
基础模型 | meta-llama/Meta-Llama-3-8B-Instruct |
数据集 | augmxnt/ultra-orca-boros-en-ja-v1 |
模型测试结果
根据 Llama 3 社区许可协议,此模型的正式名称为 "LLama 3 shisa-v1-llama3-8b"
为降低方差,进行了 2 轮测试,所有测试均使用温度 0.2、最小概率 0.1、频率惩罚 0.5。
模型 | 平均得分 | ELYZA100 | JA MT - Bench | Rakuda | Tengu - Bench | 日文占比 |
---|---|---|---|---|---|---|
shisa-v1-llama3-8b.lr-2e4 | 3.97 | 4.60 | 4.54 | 3.33 | 3.42 | 92.42% |
shisa-v1-llama3-8b.lr-5e5 | 5.73 | 6.28 | 6.45 | 5.37 | 4.81 | 90.93% |
shisa-v1-llama3-8b.2e5 | 6.33 | 6.51 | 6.66 | 6.68 | 5.48 | 91.51% |
shisa-v1-llama3-8b (8 - e6) | 6.59 | 6.67 | 6.95 | 7.05 | 5.68 | 91.30% |
shisa-v1-llama3-8b.5e6 | 6.42 | 6.33 | 6.76 | 7.15 | 5.45 | 91.56% |
shisa-v1-llama3-8b.2e6 | 6.31 | 6.26 | 6.88 | 6.73 | 5.38 | 92.00% |
- 学习率为 2e - 4 和 5e - 5 的模型明显过拟合,性能显著下降。
- 学习率为 2e - 5 的模型处于临界状态,
weightwacher
显示其嵌入层略有过拟合,但NEFTune
版本无此问题。 - 学习率为 8e - 6 的模型表现最佳,5e - 6 的模型表现也略优于 2e - 5 的模型。
与其他模型的对比
模型 | 平均得分 | ELYZA - tasks - 100 | MT - Bench | Rakuda | Tengu - Bench |
---|---|---|---|---|---|
gpt - 4 - turbo - 2024 - 04 - 09 | 8.75 | 8.78 | 8.74 | 9.18 | 8.31 |
gpt - 4o - 2024 - 05 - 13 | 8.72 | 8.88 | 8.69 | 9.15 | 8.16 |
gemini - 1.5 - pro | 8.58 | 8.58 | 8.93 | 9.20 | 7.61 |
claude - 3 - opus - 20240229 | 8.55 | 8.64 | 8.58 | 8.75 | 8.23 |
CohereForAI/c4ai - command - r - plus | 7.69 | 7.50 | 7.43 | 9.05 | 6.79 |
shisa - ai/shisa - v1 - llama3 - 70b | 7.30 | 7.34 | 7.67 | 8.15 | 6.04 |
gpt - 3.5 - turbo - 0125 | 7.17 | 7.24 | 6.98 | 7.64 | 6.82 |
shisa - ai/shisa - v1 - llama3 - 70b.2e5 | 7.17 | 7.16 | 7.45 | 7.98 | 6.09 |
karakuri - ai/karakuri - lm - 8x7b - chat - v0.1 | 7.00 | 7.18 | 6.30 | 7.98 | 6.55 |
karakuri - ai/karakuri - lm - 70b - chat - v0.1 | 6.84 | 6.86 | 6.43 | 7.85 | 6.23 |
lightblue/ao - karasu - 72B | 6.81 | 7.19 | 6.54 | 7.25 | 6.27 |
shisa - ai/shisa - v1 - llama3 - 8b | 6.59 | 6.67 | 6.95 | 7.05 | 5.68 |
shisa - ai/shisa - swallowmx - 13a47b - v1 | 6.17 | 6.48 | 6.07 | 7.11 | 5.03 |
lightblue/suzume - llama - 3 - 8B - japanese | 5.96 | 6.68 | 4.96 | 6.68 | 5.53 |
augmxnt/shisa - gamma - 7b - v1 | 5.82 | 5.96 | 5.02 | 6.85 | 5.47 |
shisa - ai/shisa - v1 - phi3 - 14b | 5.77 | 6.28 | 5.26 | 6.55 | 5.01 |
shisa - ai/shisa - v1 - gemma - 8b | 5.64 | 6.50 | 5.42 | 5.10 | 5.55 |
Rakuten/RakutenAI - 7B - chat | 5.58 | 5.92 | 4.60 | 6.58 | 5.24 |
lightblue/qarasu - 14B - chat - plus - unleashed | 5.20 | 5.58 | 4.74 | 5.46 | 5.01 |
shisa - ai/shisa - v1 - mistral0.3 - 7b | 5.11 | 5.64 | 6.10 | 3.83 | 4.86 |
cyberagent/calm2 - 7b - chat | 4.76 | 4.90 | 3.58 | 5.75 | 4.81 |
mistralai/Mistral - 7B - Instruct - v0.2 | 4.69 | 5.78 | 4.65 | 3.80 | 4.53 |
shisa - ai/shisa - v1 - yi1.5 - 9b | 4.63 | 5.98 | 4.28 | 3.26 | 5.00 |
augmxnt/shisa - 7b - v1 | 4.50 | 4.63 | 3.95 | 4.89 | 4.53 |
axolotl 配置
此模型的训练计算资源由 Ubitus 慷慨提供。
查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
chat_template: llama3
datasets:
- path: augmxnt/ultra-orca-boros-en-ja-v1
type: sharegpt
dataset_prepared_path: last_run_prepared
val_set_size: 0.05
output_dir: ./outputs/lr-8e6
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
use_wandb: true
wandb_project: shisa-v2
wandb_entity: augmxnt
wandb_name: shisa-v1-llama3-8b.lr-8e6
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: paged_adamw_8bit
lr_scheduler: linear
learning_rate: 8e-6
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 100
evals_per_epoch: 2
eval_table_size:
saves_per_epoch: 0
debug:
deepspeed: axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.00
fsdp:
fsdp_config:
special_tokens:
pad_token: <|end_of_text|>
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:8e - 06
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多 GPU
- 设备数量:8
- 梯度累积步数:8
- 总训练批次大小:64
- 总评估批次大小:8
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:100
- 训练轮数:3
训练结果
训练损失 | 轮数 | 步数 | 验证损失 |
---|---|---|---|
1.3951 | 0.0064 | 1 | 0.8645 |
0.8731 | 0.5020 | 79 | 0.5577 |
0.8405 | 1.0040 | 158 | 0.5138 |
0.6888 | 1.4853 | 237 | 0.4982 |
0.6674 | 1.9873 | 316 | 0.4870 |
0.5859 | 2.4694 | 395 | 0.4983 |
框架版本
- Transformers 4.40.2
- Pytorch 2.3.0 + cu121
- Datasets 2.19.1
- Tokenizers 0.19.1
🔧 技术细节
暂未提供相关技术细节。
📄 许可证
本模型使用 llama3 许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98