Llama 3 DARE V3 8B
L
Llama 3 DARE V3 8B
rmihaylovによって開発
Meta-Llama-3-8BとMeta-Llama-3-8B-Instructモデルをベースに、DARE TIESマージ手法を用いて作成された事前学習言語モデル
ダウンロード数 14
リリース時間 : 4/21/2024
モデル概要
これはmergekitツールで統合された8Bパラメータ規模の言語モデルで、ベースモデルと指導モデルの利点を組み合わせ、様々な自然言語処理タスクに適しています
モデル特徴
DARE TIESマージ技術
先進的なDARE TIESモデル統合手法を採用し、ベースモデルと指導モデルの利点を効果的に統合
パラメータ効率的統合
緻密な層間パラメータ密度と重み制御により、モデル能力の最適な組み合わせを実現
命令追従能力
Meta-Llama-3-8B-Instructモデルの命令理解と実行能力を継承
モデル能力
テキスト生成
対話システム
命令理解と実行
自然言語処理
使用事例
対話システム
インテリジェントアシスタント
複雑な命令を理解できる対話型AIアシスタントの構築
コンテンツ生成
クリエイティブライティング
ストーリー創作、詩作などのクリエイティブコンテンツ生成の補助
🚀 Llama-3-DARE-v3-8B
このモデルは、mergekitを使用して事前学習された言語モデルをマージしたものです。
🚀 クイックスタート
このモデルは、事前学習された言語モデルをマージすることで作成されています。以下に、その詳細を説明します。
✨ 主な機能
📚 ドキュメント
マージの詳細
マージ方法
このモデルは、DARE TIESマージ手法を使用し、meta-llama/Meta-Llama-3-8Bをベースにマージされています。
マージされたモデル
以下のモデルがマージに含まれています。
設定
このモデルを生成するために使用されたYAML設定は以下の通りです。
base_model:
model:
path: meta-llama/Meta-Llama-3-8B
dtype: bfloat16
merge_method: dare_ties
parameters:
int8_mask: 1.0
normalize: 0.0
slices:
- sources:
- layer_range: [0, 32]
model:
model:
path: meta-llama/Meta-Llama-3-8B-Instruct
parameters:
density:
- filter: embed_token
value: 0.12392239047187575
- filter: model.norm
value: 0.9321540995757155
- filter: lm_head
value: 0.9321540995757155
- filter: layers.0.
value: 0.9790541113047215
- filter: layers.1.
value: 0.5837293662960215
- filter: layers.2.
value: 0.9412235995535374
- filter: layers.3.
value: 0.31233149627589435
- filter: layers.4.
value: 0.8429344053665633
- filter: layers.5.
value: 0.6736586892578483
- filter: layers.6.
value: 0.24511379602231775
- filter: layers.7.
value: 0.9579106307398759
- filter: layers.8.
value: 0.763438755789315
- filter: layers.9.
value: 0.9682444116383796
- filter: layers.10.
value: 0.08453321074167956
- filter: layers.11.
value: 0.7964240843030714
- filter: layers.12.
value: 0.33878902628372387
- filter: layers.13.
value: 0.8458690962458848
- filter: layers.14.
value: 0.1052429440590172
- filter: layers.15.
value: 0.7623565162481113
- filter: layers.16.
value: 0.9707532532287503
- filter: layers.17.
value: 0.12523916859700104
- filter: layers.18.
value: 0.8415224301240337
- filter: layers.19.
value: 0.12872802862625543
- filter: layers.20.
value: 0.5529482316673654
- filter: layers.21.
value: 0.09282157218446654
- filter: layers.22.
value: 0.8370536041906024
- filter: layers.23.
value: 0.9175102292532279
- filter: layers.24.
value: 0.8983418171724273
- filter: layers.25.
value: 0.8136717935920286
- filter: layers.26.
value: 0.05054222298359671
- filter: layers.27.
value: 0.869544796603939
- filter: layers.28.
value: 0.04716191274361657
- filter: layers.29.
value: 0.13032011470396976
- filter: layers.30.
value: 0.19116844757457122
- filter: layers.31.
value: 0.1455500526734667
weight:
- filter: embed_token
value: 0.12232308541622408
- filter: model.norm.
value: 0.7266901175725669
- filter: lm_head
value: 0.7266901175725669
- filter: layers.0.
value: 0.8207345096435786
- filter: layers.1.
value: 0.9504884225844141
- filter: layers.2.
value: 0.7328920145925348
- filter: layers.3.
value: 0.6736895869883676
- filter: layers.4.
value: 0.7970121175937948
- filter: layers.5.
value: 0.9789312914172503
- filter: layers.6.
value: 0.962551880054289
- filter: layers.7.
value: 0.9561739657469092
- filter: layers.8.
value: 0.8536201095014567
- filter: layers.9.
value: 0.9376890733815005
- filter: layers.10.
value: 0.9551398977410172
- filter: layers.11.
value: 0.9967262117722387
- filter: layers.12.
value: 0.7701592243202565
- filter: layers.13.
value: 0.6842573291853765
- filter: layers.14.
value: 0.798376050387875
- filter: layers.15.
value: 0.801001533828631
- filter: layers.16.
value: 0.14199137490635572
- filter: layers.17.
value: 0.7587521819162459
- filter: layers.18.
value: 0.9769968221517621
- filter: layers.19.
value: 0.5936888514834866
- filter: layers.20.
value: 0.979481555973458
- filter: layers.21.
value: 0.1362420472755318
- filter: layers.22.
value: 0.1451804836602873
- filter: layers.23.
value: 0.9319964347718136
- filter: layers.24.
value: 0.8814265997262563
- filter: layers.25.
value: 0.870638468633288
- filter: layers.26.
value: 0.06311119172889679
- filter: layers.27.
value: 0.902932718098389
- filter: layers.28.
value: 0.9174145551871369
- filter: layers.29.
value: 0.9048467992426628
- filter: layers.30.
value: 0.04929564345988049
- filter: layers.31.
value: 0.922707420329624
- layer_range: [0, 32]
model:
model:
path: meta-llama/Meta-Llama-3-8B
parameters:
density:
- filter: embed_token
value: 0.1479082895745973
- filter: model.norm
value: 0.18334257522610492
- filter: lm_head
value: 0.18334257522610492
- filter: layers.0.
value: 0.17476905394590242
- filter: layers.1.
value: 0.11161623400742576
- filter: layers.2.
value: 0.16109344344908105
- filter: layers.3.
value: 0.2735834275693588
- filter: layers.4.
value: 0.8258891898417566
- filter: layers.5.
value: 0.21085556872053604
- filter: layers.6.
value: 0.20766543320815006
- filter: layers.7.
value: 0.8947694253855037
- filter: layers.8.
value: 0.734275334571558
- filter: layers.9.
value: 0.1632311874735626
- filter: layers.10.
value: 0.940700711783812
- filter: layers.11.
value: 0.07148774488326176
- filter: layers.12.
value: 0.07541557340487534
- filter: layers.13.
value: 0.13833770311269455
- filter: layers.14.
value: 0.9612379711004643
- filter: layers.15.
value: 0.8090075125599039
- filter: layers.16.
value: 0.7255233959581611
- filter: layers.17.
value: 0.2634507144990253
- filter: layers.18.
value: 0.07135903934561608
- filter: layers.19.
value: 0.1180822729914722
- filter: layers.20.
value: 0.07751975543731829
- filter: layers.21.
value: 0.9990557487897024
- filter: layers.22.
value: 0.17045615586066107
- filter: layers.23.
value: 0.19588339382290734
- filter: layers.24.
value: 0.152313213824124
- filter: layers.25.
value: 0.8120646024357844
- filter: layers.26.
value: 0.6661112930033101
- filter: layers.27.
value: 0.7782416079783356
- filter: layers.28.
value: 0.24425477536875875
- filter: layers.29.
value: 0.05962906198631645
- filter: layers.30.
value: 0.023125010859717736
- filter: layers.31.
value: 0.9109899850283665
weight:
- filter: embed_token
value: 0.12126630242759481
- filter: model.norm.
value: 0.07734624352533248
- filter: lm_head
value: 0.07734624352533248
- filter: layers.0.
value: 0.16823028525905875
- filter: layers.1.
value: 0.9417449451303712
- filter: layers.2.
value: 0.7717519522673566
- filter: layers.3.
value: 0.7601040526349441
- filter: layers.4.
value: 0.0019090753772779204
- filter: layers.5.
value: 0.16032547702469566
- filter: layers.6.
value: 0.12224994873335546
- filter: layers.7.
value: 0.27695385066177564
- filter: layers.8.
value: 0.018799614691291815
- filter: layers.9.
value: 0.9759168818301882
- filter: layers.10.
value: 0.006525097827571269
- filter: layers.11.
value: 0.756537797885991
- filter: layers.12.
value: 0.8051453838823787
- filter: layers.13.
value: 0.8879631547059472
- filter: layers.14.
value: 0.713799746085261
- filter: layers.15.
value: 0.03862352880564701
- filter: layers.16.
value: 0.1837448681603537
- filter: layers.17.
value: 0.30267576939315943
- filter: layers.18.
value: 0.17332405807285195
- filter: layers.19.
value: 0.11686420946772721
- filter: layers.20.
value: 0.2826021601318976
- filter: layers.21.
value: 0.14782621450845335
- filter: layers.22.
value: 0.8764989337980243
- filter: layers.23.
value: 0.5836574402524565
- filter: layers.24.
value: 0.8579541606567384
- filter: layers.25.
value: 0.2310998812434597
- filter: layers.26.
value: 0.13443251834995432
- filter: layers.27.
value: 0.9754382468614297
- filter: layers.28.
value: 0.9406099007353652
- filter: layers.29.
value: 0.10203532427654999
- filter: layers.30.
value: 0.747420490316978
- filter: layers.31.
value: 0.06383831695667043
📄 ライセンス
このモデルは、other
ライセンスの下で提供されています。詳細はLICENSEを参照してください。また、以下のMETA LLAMA 3 COMMUNITY LICENSE AGREEMENTにも同意する必要があります。
META LLAMA 3 COMMUNITY LICENSE AGREEMENT
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98