CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensityオープンソースモデル

ホーム

Caplattessdolxaboros Yi 34B 200K DARE Ties HighDensity

brucethemooseによって開発

これはYi-34B-200Kベースモデルを基に、DARE Tiesメソッドで複数の同系モデルを高密度マージしたモデルで、200Kの長文コンテキスト処理能力を有します。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #200K長文コンテキスト #マルチモデル融合 #高密度マージ

ダウンロード数 94

リリース時間 : 12/9/2023

モデル概要

このモデルはmergekitのDARE Tiesメソッドを用いて、Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4などの同系モデルをマージし、Yi-34B-200Kの長文コンテキスト能力を保持しながら、複数のベンチマークテストで優れた性能を示します。

モデル特徴

長文コンテキスト処理

200Kトークンの長文コンテキスト処理をサポートし、長文ドキュメントや複雑な推論タスクに適しています

高密度マージ

DARE Tiesメソッドを使用して推奨密度以上の同系モデルをマージし、モデル性能を向上させています

マルチモデル強み融合

Dolphin、Capybara、Tessなど複数モデルの強みを統合し、多様な能力を備えています

効率的な推論

24GB GPUで動作可能で、exllamav2上では45K-75Kのコンテキスト長をサポートします

モデル能力

テキスト生成

長文理解

複雑な推論

質問応答システム

知識質問応答

使用事例

知識質問応答

AI2推論チャレンジ

AI2推論チャレンジ(ARC)における少数サンプルでのパフォーマンス

標準化正解率67.41

常識推論

HellaSwagテスト

HellaSwagデータセットにおける常識推論能力

標準化正解率85.77

数学推論

GSM8k数学問題

小学校レベルの数学文章題を解く能力

正解率61.33

🚀 CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity

このモデルは、複数の言語モデルを「dare ties」という新しい実験的な手法でマージしたもので、テキスト生成タスクで高い性能を発揮します。

🚀 クイックスタート

このモデルは、transformersライブラリを使用して実行できます。以下に基本的な使い方を示します。

プロンプトテンプレート

SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:

このモデルは、Dolphin+XaberiusのChatMLやAiroborosのLlama-chatを認識することがあります。また、Capybaraのようにモデルが停止トークンを<\s>として明示することがあるため、追加の停止条件として<\s>を設定する必要がある場合があります。

実行方法

Yiモデルであるため、BOSトークンを無効にするか、または0.05 - 0.13のMinPで低い温度を設定し、少しの繰り返しペナルティを設定し、他のサンプラーを使用しないことを試してください。Yiはデフォルトで「ホット」に動作する傾向があります。

24GBのGPUを持つ場合は、exllamav2を使用してYi-34B-200Kモデルを45K - 75Kのコンテキストで実行できます。詳細については、この投稿を参照してください。

目的のタスクに似たデータでプロファイリングされたexl2量子化をお勧めします。低いbpwでは量子化データに特に敏感です！私はvicuuna chat + フィクションライティングに関する独自の量子化をここに公開しています: 4bpw 3.1bpw

transformersやvllmのようなフルコンテキストのバックエンドでこのモデルをロードする場合は、config.jsonのmax_position_embeddingsを200,000より低い値に変更する必要があります。そうしないと、OOM（メモリ不足）エラーが発生します。

✨ 主な機能

モデルマージ：「dare ties」という新しい手法を用いて、複数の言語モデルをマージしています。
高い性能：テキスト生成タスクで高い精度を達成しています。
長いコンテキスト：200Kのコンテキストをサポートしています。

📦 インストール

このモデルは、Hugging Face Hubから直接ダウンロードして使用できます。transformersライブラリをインストールすることで、簡単に利用できます。

pip install transformers

📚 ドキュメント

モデルのマージ方法

「Dolphin-2.2-yi-34b-200k」、「Nous-Capybara-34B」、「Tess-M-v1.4」、「Airoboros-3_1-yi-34b-200k」、「PlatYi-34B-200K-Q」、および「Una-xaberius-34b-v1beta」を、mergekitを使用した「dare ties」の新しい実験的な実装でマージしています。詳細は以下のリンクを参照してください。

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

https://github.com/cg123/mergekit/tree/dare

マージ設定

このバリアントは、以下の設定で「推奨より高い」密度でマージされており、chargoddardのYi-Llamaのトークナイザーを使用しています。

models:
  - model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
    # no parameters necessary for base model
  - model: /home/alpha/Storage/Models/Raw/migtissera_Tess-34B-v1.4
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
    parameters:
      weight: 0.14
      density: 0.5
  - model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha/Storage/Models/Raw/kyujinpy_PlatYi-34B-200K-Q
    parameters:
      weight: 0.14
      density: 0.5
  - model: /home/alpha/FastModels/ehartford_dolphin-2.2-yi-34b-200k
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha/FastModels/fblgit_una-xaberius-34b-v1beta
    parameters:
      weight: 0.15
      density: 0.08
merge_method: dare_ties
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
parameters:
  int8_mask: true
dtype: bfloat16

🔧 技術詳細

テスト結果

様々な密度を困惑度テストと長いコンテキストのプロンプトでテストしました。比較的高い密度の方が、Super Mario論文の結果とは反対に、より良い性能を示すようです。

この特定のバージョンは、「推奨」される最大密度の0.5よりも高い密度でマージされています。これにより、さらに良い困惑度と、Hugging Faceのリーダーボードでのより高い順位が得られるようですが、これがより良い出力につながるかどうかはまだわかりません。

合計が1になる重みが最適であるようです。

Dare Tiesは、通常のtiesマージ、タスク算術、またはslerpマージよりも、見た目に良く、困惑度の低いマージをもたらすようです。

Xaberuisは200Kモデルではないため、Yi 200Kの長いコンテキスト性能を維持しながら、Xaberiusの一部の性能を引き継ぐために、非常に低い密度でマージされています。

他のファインチューニングモデルは200Kベースで訓練されていないため、含めないことにしました。もし他の200Kファインチューニングモデルが登場したら、教えてください。

📄 ライセンス

このモデルは、yi-licenseの下で提供されています。

Open LLM Leaderboard Evaluation Results

詳細な結果はこちらで確認できます。

指標	値
平均	72.15
AI2 Reasoning Challenge (25-Shot)	67.41
HellaSwag (10-Shot)	85.77
MMLU (5-Shot)	77.44
TruthfulQA (0-shot)	57.84
Winogrande (5-shot)	83.11
GSM8k (5-shot)	61.33