Llama-3-70B-Special-Tokens-Adjustedオープンソースモデル - 特殊トークンを最適化し、微調整の難題を解決

ホーム

Llama 3 70B Special Tokens Adjusted

astronomerによって開発

Meta-Llama-3-70Bをベースに最適化された特殊タグ調整バージョンで、元のモデルで未学習の特殊タグに起因する微調整の問題を解消しました。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #特殊タグの最適化 #微調整の安定性向上 #大規模言語モデル

ダウンロード数 33

リリース時間 : 4/25/2024

モデル概要

このモデルはMeta-Llama-3-70Bの最適化バージョンで、主に元のモデルで一部の特殊タグが学習されていない問題を解決し、モデルを下流タスクの微調整により適したものにします。

モデル特徴

特殊タグの最適化

元のモデルで未学習の特殊タグの問題を解消し、学習済みタグの平均値でこれらのタグの重みを埋めます。

微調整の安定性向上

微調整中に発生する可能性のある勾配爆発またはNaN勾配の問題を解決します。

互換性の維持

元のMeta-Llama-3-70Bモデルとまったく同じ機能を維持し、特殊タグの処理のみを最適化します。

モデル能力

テキスト生成

命令追従

下流タスクの微調整

使用事例

自然言語処理

命令微調整

ベースモデルとして命令微調整を行う

特殊タグの問題による学習の不安定性を回避する

新しいタグの追加

微調整中に新しいタグを追加する

新しいタグが合理的な初期埋め込み値を取得できる

🚀 Llama-3-70B-Special-Tokens-Adjusted

このモデルは、微調整に最適で安定したLlama-3-70Bモデルです。特殊トークンの調整により、訓練の不安定性を解消しています。

🚀 クイックスタート

このモデルは、Astronomerによって作成されたオープンソースのモデルです。Astronomerは、データオーケストレーションとMLOpsのための最も信頼されているオープンソースフレームワークであるApache Airflowの代表的な企業です。

このモデルは、Astronomerによって寛大に作成され、オープンソースとして公開されています。

Astronomerは、データオーケストレーションとMLOpsのための最も信頼されているオープンソースフレームワークであるApache Airflowの代表的な企業です。

モデル概要

最適かつ安定した微調整用のLlama-3-70Bモデル
オリジナルモデルの作成者: Meta
オリジナルモデル: meta-llama/Meta-Llama-3-70B
このモデルの使用には、Llama 3 Community Licenseに従う必要があります。
Meta Llama 3をベースに構築
AstronomerのDavid Xueによって作成

✨ 主な機能

このモデルは、Llama 3のベースモデルに存在する特殊トークンの未訓練問題を解決するために作成されました。具体的には、入力と出力の埋め込み行列の重みを調整することで、訓練の不安定性を解消し、微調整をスムーズに行えるようにしています。

📚 ドキュメント

説明

このモデルは、meta-llama/Meta-Llama-3-70Bとまったく同じモデルですが、特定の未訓練トークンに対して、訓練済みトークンの平均を使用して、入力と出力の埋め込み行列の重みを調整しています。これらの未訓練トークンは、微調整時に勾配爆発やNaN勾配などの問題を引き起こす可能性があります。

なぜこのモデルを作成したのか

Llama 3のベースモデルは強力ですが、アーキテクチャ内の一部の特殊トークンが未訓練のままであり、微調整プロセスに支障をきたす可能性があります。この問題はDaniel Han on Xによって指摘されました。

このモデルの修正版をリリースした主な目的は、この問題を解決し、コミュニティがLlama 3モデルを訓練の不安定性なしに利用できるようにすることです。具体的には、70Bモデルの場合、未訓練の特殊トークンの埋め込み重みはすべてゼロではないため、この問題の重要性は8Bモデルほど深刻ではないかもしれません。ただし、コミュニティの要望に応えてこのモデルを作成しました。理論的には、直接微調整しても問題ないはずです。

調整の詳細

meta-llama/Meta-Llama-3-70BモデルをHuggingFaceから直接取得し、transformersを使用してロードします。次に、model.get_input_embeddings().weight.dataとmodel.get_output_embeddings().weight.dataを使用して、入力と出力の埋め込み値を取得します。これらの2つの行列は形状が同じで、各行がトークンIDを表し、各列が埋め込み特徴を表します。

特殊（未訓練で問題のある）トークンは、埋め込み値の全行が~~~すべてゼロ~~~ 9e-7未満の行を見つけることで特定できます（70Bモデルの場合、全行がゼロの行はなかったため、9e-7を閾値として使用して未訓練トークンを特定しました）。これらの未訓練トークンは、特定のタスクの下流微調整時に、勾配爆発やNaN勾配などの重大な計算問題を引き起こす可能性があります。

「未訓練」のプロファイルに合致すると判断されたトークンのリストはこちらをクリック:

['À', 'Á', 'õ', 'ö', '÷', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'þ', 'ÿ', '">ččĊ', ';čččĊ', 'ĉTokenNameIdentifier', 'ĠForCanBeConverted', 'ĠForCanBeConvertedToF', 'PostalCodesNL', '$PostalCodesNL', 'useRalative', 'Û±Û', 'Ð°ÑĢÐ°ÐºÑĤ', 'Ð°ÑĤÐ¸ÑģÑı', 'Ð¸ÑĤÐ¸ÑģÑı', 'Ã¡vajÃŃcÃŃ', 'Ä°TESÄ°', 'Ð¸Ð»Ð°ÐºÑĤÐ¸', 'Ð¸Ð»Ð°ÑģÑı', 'ÑĭÑŁN', 'ÐİÑĭÑŁN', 'Ä±lmaktadÄ±r', 'ÐİÑĭÑŁNÐİÑĭÑŁN', 'Ä±ldÄ±ÄŁÄ±nda', '<|reserved_special_token_0|>', '<|reserved_special_token_1|>', '<|reserved_special_token_2|>', '<|reserved_special_token_3|>', '<|start_header_id|>', '<|end_header_id|>', '<|reserved_special_token_4|>', '<|eot_id|>', '<|reserved_special_token_5|>', '<|reserved_special_token_6|>', '<|reserved_special_token_7|>', '<|reserved_special_token_8|>', '<|reserved_special_token_9|>', '<|reserved_special_token_10|>', '<|reserved_special_token_11|>', '<|reserved_special_token_12|>', '<|reserved_special_token_13|>', '<|reserved_special_token_14|>', '<|reserved_special_token_15|>', '<|reserved_special_token_16|>', '<|reserved_special_token_17|>', '<|reserved_special_token_18|>', '<|reserved_special_token_19|>', '<|reserved_special_token_20|>', '<|reserved_special_token_21|>', '<|reserved_special_token_22|>', '<|reserved_special_token_23|>', '<|reserved_special_token_24|>', '<|reserved_special_token_25|>', '<|reserved_special_token_26|>', '<|reserved_special_token_27|>', '<|reserved_special_token_28|>', '<|reserved_special_token_29|>', '<|reserved_special_token_30|>', '<|reserved_special_token_31|>', '<|reserved_special_token_32|>', '<|reserved_special_token_33|>', '<|reserved_special_token_34|>', '<|reserved_special_token_35|>', '<|reserved_special_token_36|>', '<|reserved_special_token_37|>', '<|reserved_special_token_38|>', '<|reserved_special_token_39|>', '<|reserved_special_token_40|>', '<|reserved_special_token_41|>', '<|reserved_special_token_42|>', '<|reserved_special_token_43|>', '<|reserved_special_token_44|>', '<|reserved_special_token_45|>', '<|reserved_special_token_46|>', '<|reserved_special_token_47|>', '<|reserved_special_token_48|>', '<|reserved_special_token_49|>', '<|reserved_special_token_50|>', '<|reserved_special_token_51|>', '<|reserved_special_token_52|>', '<|reserved_special_token_53|>', '<|reserved_special_token_54|>', '<|reserved_special_token_55|>', '<|reserved_special_token_56|>', '<|reserved_special_token_57|>', '<|reserved_special_token_58|>', '<|reserved_special_token_59|>', '<|reserved_special_token_60|>', '<|reserved_special_token_61|>', '<|reserved_special_token_62|>', '<|reserved_special_token_63|>', '<|reserved_special_token_64|>', '<|reserved_special_token_65|>', '<|reserved_special_token_66|>', '<|reserved_special_token_67|>', '<|reserved_special_token_68|>', '<|reserved_special_token_69|>', '<|reserved_special_token_70|>', '<|reserved_special_token_71|>', '<|reserved_special_token_72|>', '<|reserved_special_token_73|>', '<|reserved_special_token_74|>', '<|reserved_special_token_75|>', '<|reserved_special_token_76|>', '<|reserved_special_token_77|>', '<|reserved_special_token_78|>', '<|reserved_special_token_79|>', '<|reserved_special_token_80|>', '<|reserved_special_token_81|>', '<|reserved_special_token_82|>', '<|reserved_special_token_83|>', '<|reserved_special_token_84|>', '<|reserved_special_token_85|>', '<|reserved_special_token_86|>', '<|reserved_special_token_87|>', '<|reserved_special_token_88|>', '<|reserved_special_token_89|>', '<|reserved_special_token_90|>', '<|reserved_special_token_91|>', '<|reserved_special_token_92|>', '<|reserved_special_token_93|>', '<|reserved_special_token_94|>', '<|reserved_special_token_95|>', '<|reserved_special_token_96|>', '<|reserved_special_token_97|>', '<|reserved_special_token_98|>', '<|reserved_special_token_99|>', '<|reserved_special_token_100|>', '<|reserved_special_token_101|>', '<|reserved_special_token_102|>', '<|reserved_special_token_103|>', '<|reserved_special_token_104|>', '<|reserved_special_token_105|>', '<|reserved_special_token_106|>', '<|reserved_special_token_107|>', '<|reserved_special_token_108|>', '<|reserved_special_token_109|>', '<|reserved_special_token_110|>', '<|reserved_special_token_111|>', '<|reserved_special_token_112|>', '<|reserved_special_token_113|>', '<|reserved_special_token_114|>', '<|reserved_special_token_115|>', '<|reserved_special_token_116|>', '<|reserved_special_token_117|>', '<|reserved_special_token_118|>', '<|reserved_special_token_119|>', '<|reserved_special_token_120|>', '<|reserved_special_token_121|>', '<|reserved_special_token_122|>', '<|reserved_special_token_123|>', '<|reserved_special_token_124|>', '<|reserved_special_token_125|>', '<|reserved_special_token_126|>', '<|reserved_special_token_127|>', '<|reserved_special_token_128|>', '<|reserved_special_token_129|>', '<|reserved_special_token_130|>', '<|reserved_special_token_131|>', '<|reserved_special_token_132|>', '<|reserved_special_token_133|>', '<|reserved_special_token_134|>', '<|reserved_special_token_135|>', '<|reserved_special_token_136|>', '<|reserved_special_token_137|>', '<|reserved_special_token_138|>', '<|reserved_special_token_139|>', '<|reserved_special_token_140|>', '<|reserved_special_token_141|>', '<|reserved_special_token_142|>', '<|reserved_special_token_143|>', '<|reserved_special_token_144|>', '<|reserved_special_token_145|>', '<|reserved_special_token_146|>', '<|reserved_special_token_147|>', '<|reserved_special_token_148|>', '<|reserved_special_token_149|>', '<|reserved_special_token_150|>', '<|reserved_special_token_151|>', '<|reserved_special_token_152|>', '<|reserved_special_token_153|>', '<|reserved_special_token_154|>', '<|reserved_special_token_155|>', '<|reserved_special_token_156|>', '<|reserved_special_token_157|>', '<|reserved_special_token_158|>', '<|reserved_special_token_159|>', '<|reserved_special_token_160|>', '<|reserved_special_token_161|>', '<|reserved_special_token_162|>', '<|reserved_special_token_163|>', '<|reserved_special_token_164|>', '<|reserved_special_token_165|>', '<|reserved_special_token_166|>', '<|reserved_special_token_167|>', '<|reserved_special_token_168|>', '<|reserved_special_token_169|>', '<|reserved_special_token_170|>', '<|reserved_special_token_171|>', '<|reserved_special_token_172|>', '<|reserved_special_token_173|>', '<|reserved_special_token_174|>', '<|reserved_special_token_175|>', '<|reserved_special_token_176|>', '<|reserved_special_token_177|>', '<|reserved_special_token_178|>', '<|reserved_special_token_179|>', '<|reserved_special_token_180|>', '<|reserved_special_token_181|>', '<|reserved_special_token_182|>', '<|reserved_special_token_183|>', '<|reserved_special_token_184|>', '<|reserved_special_token_185|>', '<|reserved_special_token_186|>', '<|reserved_special_token_187|>', '<|reserved_special_token_188|>', '<|reserved_special_token_189|>', '<|reserved_special_token_190|>', '<|reserved_special_token_191|>', '<|reserved_special_token_192|>', '<|reserved_special_token_193|>', '<|reserved_special_token_194|>', '<|reserved_special_token_195|>', '<|reserved_special_token_196|>', '<|reserved_special_token_197|>', '<|reserved_special_token_198|>', '<|reserved_special_token_199|>', '<|reserved_special_token_200|>', '<|reserved_special_token_201|>', '<|reserved_special_token_202|>', '<|reserved_special_token_203|>', '<|reserved_special_token_204|>', '<|reserved_special_token_205|>', '<|reserved_special_token_206|>', '<|reserved_special_token_207|>', '<|reserved_special_token_208|>', '<|reserved_special_token_209|>', '<|reserved_special_token_210|>', '<|reserved_special_token_211|>', '<|reserved_special_token_212|>', '<|reserved_special_token_213|>', '<|reserved_special_token_214|>', '<|reserved_special_token_215|>', '<|reserved_special_token_216|>', '<|reserved_special_token_217|>', '<|reserved_special_token_218|>', '<|reserved_special_token_219|>', '<|reserved_special_token_220|>', '<|reserved_special_token_221|>', '<|reserved_special_token_222|>', '<|reserved_special_token_223|>', '<|reserved_special_token_224|>', '<|reserved_special_token_225|>', '<|reserved_special_token_226|>', '<|reserved_special_token_227|>', '<|reserved_special_token_228|>', '<|reserved_special_token_229|>', '<|reserved_special_token_230|>', '<|reserved_special_token_231|>', '<|reserved_special_token_232|>', '<|reserved_special_token_233|>', '<|reserved_special_token_234|>', '<|reserved_special_token_235|>', '<|reserved_special_token_236|>', '<|reserved_special_token_237|>', '<|reserved_special_token_238|>', '<|reserved_special_token_239|>', '<|reserved_special_token_240|>', '<|reserved_special_token_241|>', '<|reserved_special_token_242|>', '<|reserved_special_token_243|>', '<|reserved_special_token_244|>', '<|reserved_special_token_245|>', '<|reserved_special_token_246|>', '<|reserved_special_token_247|>', '<|reserved_special_token_248|>', '<|reserved_special_token_249|>', '<|reserved_special_token_250|>']

これらの未訓練トークンが特定されると、各特徴/列に対して訓練済みトークンの埋め込み値の合計を計算し、訓練済みトークンの数で割ることで、訓練済みトークンの平均を計算します。これを入力と出力の両方の行列に対して行います。

最後に、2つの埋め込み行列の問題のあるトークンの行を、計算された平均に設定することで、調整を完了します。

🔧 技術詳細

調整の手順

meta-llama/Meta-Llama-3-70BモデルをHuggingFaceから直接取得し、transformersを使用してロードします。
model.get_input_embeddings().weight.dataとmodel.get_output_embeddings().weight.dataを使用して、入力と出力の埋め込み値を取得します。
埋め込み値の全行が9e-7未満の行を見つけることで、未訓練トークンを特定します。
訓練済みトークンの埋め込み値の合計を計算し、訓練済みトークンの数で割ることで、訓練済みトークンの平均を計算します。
入力と出力の埋め込み行列の問題のあるトークンの行を、計算された平均に設定します。