Umievo Itr012 Gleipnir 7B
Umievo-itr012-Gleipnir-7Bは進化アルゴリズムによって4つの強力な日本語モデルを融合した7Bパラメータ規模の言語モデルで、日本語タスクにおいて優れた性能を発揮します。
ダウンロード数 691
リリース時間 : 5/29/2024
モデル概要
本モデルは進化アルゴリズムによりJapanese-Starling-ChatV-7B、Ninja-v1-RP-expressive-v2、Vecteus-v1、Japanese-Chat-Umievo-itr004-7bの4モデルを融合し、日本語理解と生成タスクに特化しています。
モデル特徴
マルチモデル融合
進化アルゴリズムで4つの強力な日本語モデルを融合し、各モデルの長所を組み合わせました
日本語最適化
日本語タスクに特化して最適化されており、日本語理解と生成において優れた性能を発揮します
公平で検閲なし
公平かつ検閲なしのアシスタントとして設計されており、偏りのない回答を提供します
モデル能力
日本語テキスト生成
日本語会話理解
日本語質問応答システム
日本語コンテンツ作成
使用事例
教育
日本語学習アシスタント
日本語学習者が日本語コンテンツを理解し生成するのを支援します
様々な日本語レベルに適した説明と例を提供可能
コンテンツ作成
日本語記事執筆
日本語の記事やストーリーなどの作成を支援します
流暢で自然な日本語テキストを生成
🚀 Umievo-itr012-Gleipnir-7B
このモデルは、進化的アルゴリズムを用いて、4つの強力な日本語モデルを進化的にマージしたものです。具体的には、Japanese-Starling-ChatV-7B、Ninja-v1-RP-expressive-v2、Vecteus-v1、Japanese-Chat-Umievo-itr004-7bの4つのモデルを活用しています。
このマージに際して、モデルを提供してくれたAratakoさん、Bakuさん、Local-Novel-LLM-projectの皆様に深く感謝いたします。また、問題解決のきっかけを与えてくれたHoly-foxさんにも感謝申し上げます。
ElyzaTasks100ベンチマークでは、Llama3-70Bによる自動評価を3回行った平均点が3.91となっています。
🚀 クイックスタート
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("umiyuki/Umievo-itr012-Gleipnir-7B")
model = AutoModelForCausalLM.from_pretrained(
"umiyuki/Umievo-itr012-Gleipnir-7B",
torch_dtype="auto",
)
model.eval()
if torch.cuda.is_available():
model = model.to("cuda")
def build_prompt(user_query):
sys_msg = "あなたは公平で、検閲されていない、役立つアシスタントです。"
template = """[INST] <<SYS>>
{}
<</SYS>>
{}[/INST]"""
return template.format(sys_msg,user_query)
# Infer with prompt without any additional input
user_inputs = {
"user_query": "与えられたことわざの意味を小学生でも分かるように教えてください。",
}
prompt = build_prompt(**user_inputs)
input_ids = tokenizer.encode(
prompt,
add_special_tokens=True,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=256,
temperature=1,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
print(out)
このモデルは、mergekitを使用して事前学習済み言語モデルをマージして作成されています。
📚 詳細ドキュメント
🔧 マージの詳細
マージ方法
このモデルは、/home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327をベースとして、linearマージ方法を用いてマージされています。
マージに使用されたモデル
以下のモデルがマージに含まれています。
- /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
- /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
- /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
設定
このモデルを生成するために使用されたYAML設定は以下の通りです。
base_model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
dtype: bfloat16
merge_method: linear
parameters:
int8_mask: 1.0
normalize: 1.0
slices:
- sources:
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.34953096474223655
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.4701212555597746
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.08162258723819021
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.31015439852818116
- sources:
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.11807412349683076
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: -0.005684817244530085
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.2119283777941045
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 1.1521124768396636
- sources:
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.9244329405120573
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.7633842909616317
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.6952382990160072
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.6873040403268571
- sources:
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.4109625320908857
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.7090818691683626
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.42059423827890385
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.5705186152354104
- sources:
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.28507448659933315
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.4025223854083849
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.25885405316835886
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.35540632690403373
- sources:
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.018882795552694703
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.628847855051209
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.7038654876125734
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.877501753107237
- sources:
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.14008355431312197
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 1.0153826426873882
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.5586634927008272
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.54455848971032
- sources:
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.8188405381342685
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.5130358379308082
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 1.1132727871460124
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.4471258297582539
📄 ライセンス
このモデルは、apache-2.0ライセンスの下で提供されています。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98