Shisa V1 Llama3 8b
S
Shisa V1 Llama3 8b
由shisa-ai開發
基於Meta-Llama-3-8B-Instruct微調的日語優化大語言模型,在多個日語基準測試中表現優異
下載量 28
發布時間 : 5/21/2024
模型概述
這是一個針對日語優化的8B參數大語言模型,基於Llama 3架構微調,在ELYZA100、日語MT-Bench等日語評估基準上取得良好成績
模型特點
日語優化
專門針對日語任務進行優化,日語字符佔比達91%以上
多基準表現優異
在ELYZA100、日語MT-Bench、Rakuda等多個日語評估基準上超越同類模型
精細調優
通過不同學習率實驗確定8e-6為最優參數,避免過擬合
模型能力
日語文本生成
日語問答
日語文本理解
多輪對話
使用案例
日語NLP應用
日語客服機器人
用於處理日語客戶諮詢
在Rakuda基準上得分7.05,優於多數同類模型
日語內容創作
生成符合日語表達習慣的文本內容
日語字符佔比91.3%,表達自然度較高
🚀 shisa-v1-llama3-8b 模型介紹
本模型基於 Llama 3 架構,在特定數據集上微調得到,具備良好的性能表現,可用於多種自然語言處理任務。
🚀 快速開始
本模型是 meta-llama/Meta-Llama-3-8B-Instruct 在特定數據集上的微調版本。在評估集上取得了如下結果:
- 損失值:0.4983
✨ 主要特性
- 性能優異:在多項測試中表現出色,如在不同學習率下的模型對比測試中,
shisa-v1-llama3-8b.lr-8e6
取得了較高的平均得分。 - 多語言支持:使用了包含英文和日文的數據集
augmxnt/ultra-orca-boros-en-ja-v1
進行訓練,具備一定的多語言處理能力。
📦 安裝指南
暫未提供相關安裝步驟,可參考原基礎模型 meta-llama/Meta-Llama-3-8B-Instruct 的安裝說明。
💻 使用示例
暫未提供具體使用示例代碼。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
許可證 | llama3 |
基礎模型 | meta-llama/Meta-Llama-3-8B-Instruct |
數據集 | augmxnt/ultra-orca-boros-en-ja-v1 |
模型測試結果
根據 Llama 3 社區許可協議,此模型的正式名稱為 "LLama 3 shisa-v1-llama3-8b"
為降低方差,進行了 2 輪測試,所有測試均使用溫度 0.2、最小概率 0.1、頻率懲罰 0.5。
模型 | 平均得分 | ELYZA100 | JA MT - Bench | Rakuda | Tengu - Bench | 日文佔比 |
---|---|---|---|---|---|---|
shisa-v1-llama3-8b.lr-2e4 | 3.97 | 4.60 | 4.54 | 3.33 | 3.42 | 92.42% |
shisa-v1-llama3-8b.lr-5e5 | 5.73 | 6.28 | 6.45 | 5.37 | 4.81 | 90.93% |
shisa-v1-llama3-8b.2e5 | 6.33 | 6.51 | 6.66 | 6.68 | 5.48 | 91.51% |
shisa-v1-llama3-8b (8 - e6) | 6.59 | 6.67 | 6.95 | 7.05 | 5.68 | 91.30% |
shisa-v1-llama3-8b.5e6 | 6.42 | 6.33 | 6.76 | 7.15 | 5.45 | 91.56% |
shisa-v1-llama3-8b.2e6 | 6.31 | 6.26 | 6.88 | 6.73 | 5.38 | 92.00% |
- 學習率為 2e - 4 和 5e - 5 的模型明顯過擬合,性能顯著下降。
- 學習率為 2e - 5 的模型處於臨界狀態,
weightwacher
顯示其嵌入層略有過擬合,但NEFTune
版本無此問題。 - 學習率為 8e - 6 的模型表現最佳,5e - 6 的模型表現也略優於 2e - 5 的模型。
與其他模型的對比
模型 | 平均得分 | ELYZA - tasks - 100 | MT - Bench | Rakuda | Tengu - Bench |
---|---|---|---|---|---|
gpt - 4 - turbo - 2024 - 04 - 09 | 8.75 | 8.78 | 8.74 | 9.18 | 8.31 |
gpt - 4o - 2024 - 05 - 13 | 8.72 | 8.88 | 8.69 | 9.15 | 8.16 |
gemini - 1.5 - pro | 8.58 | 8.58 | 8.93 | 9.20 | 7.61 |
claude - 3 - opus - 20240229 | 8.55 | 8.64 | 8.58 | 8.75 | 8.23 |
CohereForAI/c4ai - command - r - plus | 7.69 | 7.50 | 7.43 | 9.05 | 6.79 |
shisa - ai/shisa - v1 - llama3 - 70b | 7.30 | 7.34 | 7.67 | 8.15 | 6.04 |
gpt - 3.5 - turbo - 0125 | 7.17 | 7.24 | 6.98 | 7.64 | 6.82 |
shisa - ai/shisa - v1 - llama3 - 70b.2e5 | 7.17 | 7.16 | 7.45 | 7.98 | 6.09 |
karakuri - ai/karakuri - lm - 8x7b - chat - v0.1 | 7.00 | 7.18 | 6.30 | 7.98 | 6.55 |
karakuri - ai/karakuri - lm - 70b - chat - v0.1 | 6.84 | 6.86 | 6.43 | 7.85 | 6.23 |
lightblue/ao - karasu - 72B | 6.81 | 7.19 | 6.54 | 7.25 | 6.27 |
shisa - ai/shisa - v1 - llama3 - 8b | 6.59 | 6.67 | 6.95 | 7.05 | 5.68 |
shisa - ai/shisa - swallowmx - 13a47b - v1 | 6.17 | 6.48 | 6.07 | 7.11 | 5.03 |
lightblue/suzume - llama - 3 - 8B - japanese | 5.96 | 6.68 | 4.96 | 6.68 | 5.53 |
augmxnt/shisa - gamma - 7b - v1 | 5.82 | 5.96 | 5.02 | 6.85 | 5.47 |
shisa - ai/shisa - v1 - phi3 - 14b | 5.77 | 6.28 | 5.26 | 6.55 | 5.01 |
shisa - ai/shisa - v1 - gemma - 8b | 5.64 | 6.50 | 5.42 | 5.10 | 5.55 |
Rakuten/RakutenAI - 7B - chat | 5.58 | 5.92 | 4.60 | 6.58 | 5.24 |
lightblue/qarasu - 14B - chat - plus - unleashed | 5.20 | 5.58 | 4.74 | 5.46 | 5.01 |
shisa - ai/shisa - v1 - mistral0.3 - 7b | 5.11 | 5.64 | 6.10 | 3.83 | 4.86 |
cyberagent/calm2 - 7b - chat | 4.76 | 4.90 | 3.58 | 5.75 | 4.81 |
mistralai/Mistral - 7B - Instruct - v0.2 | 4.69 | 5.78 | 4.65 | 3.80 | 4.53 |
shisa - ai/shisa - v1 - yi1.5 - 9b | 4.63 | 5.98 | 4.28 | 3.26 | 5.00 |
augmxnt/shisa - 7b - v1 | 4.50 | 4.63 | 3.95 | 4.89 | 4.53 |
axolotl 配置
此模型的訓練計算資源由 Ubitus 慷慨提供。
查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
chat_template: llama3
datasets:
- path: augmxnt/ultra-orca-boros-en-ja-v1
type: sharegpt
dataset_prepared_path: last_run_prepared
val_set_size: 0.05
output_dir: ./outputs/lr-8e6
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
use_wandb: true
wandb_project: shisa-v2
wandb_entity: augmxnt
wandb_name: shisa-v1-llama3-8b.lr-8e6
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: paged_adamw_8bit
lr_scheduler: linear
learning_rate: 8e-6
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 100
evals_per_epoch: 2
eval_table_size:
saves_per_epoch: 0
debug:
deepspeed: axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.00
fsdp:
fsdp_config:
special_tokens:
pad_token: <|end_of_text|>
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:8e - 06
- 訓練批次大小:1
- 評估批次大小:1
- 隨機種子:42
- 分佈式類型:多 GPU
- 設備數量:8
- 梯度累積步數:8
- 總訓練批次大小:64
- 總評估批次大小:8
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:100
- 訓練輪數:3
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 |
---|---|---|---|
1.3951 | 0.0064 | 1 | 0.8645 |
0.8731 | 0.5020 | 79 | 0.5577 |
0.8405 | 1.0040 | 158 | 0.5138 |
0.6888 | 1.4853 | 237 | 0.4982 |
0.6674 | 1.9873 | 316 | 0.4870 |
0.5859 | 2.4694 | 395 | 0.4983 |
框架版本
- Transformers 4.40.2
- Pytorch 2.3.0 + cu121
- Datasets 2.19.1
- Tokenizers 0.19.1
🔧 技術細節
暫未提供相關技術細節。
📄 許可證
本模型使用 llama3 許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98