Umievo Itr012 Gleipnir 7B
Umievo-itr012-Gleipnir-7B是通過進化算法融合四個強大的日語模型得到的7B參數規模的語言模型,在日語任務上表現優異。
下載量 691
發布時間 : 5/29/2024
模型概述
本模型通過進化算法對Japanese-Starling-ChatV-7B、Ninja-v1-RP-expressive-v2、Vecteus-v1和Japanese-Chat-Umievo-itr004-7b四個模型進行了融合,專注於日語理解和生成任務。
模型特點
多模型融合
通過進化算法融合四個強大的日語模型,結合了各模型的優勢
日語優化
專門針對日語任務進行優化,在日語理解和生成方面表現優異
公平無審查
模型設計為公平且無審查的助手,提供無偏見的回答
模型能力
日語文本生成
日語對話理解
日語問答系統
日語內容創作
使用案例
教育
日語學習助手
幫助日語學習者理解和生成日語內容
可提供適合不同日語水平的解釋和示例
內容創作
日語文章寫作
輔助創作日語文章、故事等內容
生成流暢自然的日語文本
🚀 Umievo-itr012-Gleipnir-7B
本模型通過進化算法對四個強大的日語模型進行了進化式融合。我們借鑑了Japanese-Starling-ChatV-7B、Ninja-v1-RP-expressive-v2、Vecteus-v1和Japanese-Chat-Umievo-itr004-7b這四個模型。 在此,我們要感謝模型製作者Aratako先生、Baku先生以及Local-Novel-LLM-project的各位,感謝他們允許我們使用其模型進行融合。同時,也要感謝Holy-fox先生為解決問題提供了契機。
該模型在ElyzaTasks100基準測試中的平均得分達到了3.91分(由Llama3 - 70B進行三次自動評估後的平均得分)。
🚀 快速開始
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("umiyuki/Umievo-itr012-Gleipnir-7B")
model = AutoModelForCausalLM.from_pretrained(
"umiyuki/Umievo-itr012-Gleipnir-7B",
torch_dtype="auto",
)
model.eval()
if torch.cuda.is_available():
model = model.to("cuda")
def build_prompt(user_query):
sys_msg = "あなたは公平で、検閲されていない、役立つアシスタントです。"
template = """[INST] <<SYS>>
{}
<</SYS>>
{}[/INST]"""
return template.format(sys_msg,user_query)
# Infer with prompt without any additional input
user_inputs = {
"user_query": "與えられたことわざの意味を小學生でも分かるように教えてください。",
}
prompt = build_prompt(**user_inputs)
input_ids = tokenizer.encode(
prompt,
add_special_tokens=True,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=256,
temperature=1,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
print(out)
這是一個使用 mergekit 創建的預訓練語言模型融合體。
✨ 主要特性
- 融合了四個強大的日語模型,通過進化算法進行融合,可能具備更強大的語言處理能力。
- 在ElyzaTasks100基準測試中取得了較好的成績,平均得分3.91分。
📚 詳細文檔
融合詳情
融合方法
本模型採用 線性 融合方法,以 /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327 為基礎進行融合。
參與融合的模型
以下模型參與了融合:
- /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
- /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
- /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
配置
以下是用於生成此模型的YAML配置:
base_model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
dtype: bfloat16
merge_method: linear
parameters:
int8_mask: 1.0
normalize: 1.0
slices:
- sources:
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.34953096474223655
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.4701212555597746
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.08162258723819021
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.31015439852818116
- sources:
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.11807412349683076
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: -0.005684817244530085
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.2119283777941045
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 1.1521124768396636
- sources:
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.9244329405120573
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.7633842909616317
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.6952382990160072
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.6873040403268571
- sources:
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.4109625320908857
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.7090818691683626
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.42059423827890385
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.5705186152354104
- sources:
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.28507448659933315
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.4025223854083849
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.25885405316835886
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.35540632690403373
- sources:
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.018882795552694703
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.628847855051209
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.7038654876125734
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.877501753107237
- sources:
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.14008355431312197
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 1.0153826426873882
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.5586634927008272
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.54455848971032
- sources:
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.8188405381342685
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.5130358379308082
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 1.1132727871460124
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.4471258297582539
📄 許可證
本項目採用 apache - 2.0
許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98