CapyTessBorosYi-34B-200K-DARE-Tiesオープンソース大規模言語モデル - 複数モデルの能力を統合した無料デプロイ

Capytessborosyi 34B 200K DARE Ties

brucethemooseによって開発

これはmergekitのDARE Ties手法でマージされた34Bパラメータの大規模言語モデルで、Yi-34B-200Kアーキテクチャを基盤とし、Nous-Capybara-34B、Tess-M-v1.3、airoboros-3_1-yi-34b-200kの3つのモデルの能力を統合しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #200K長文処理 #DARE-Tiesマージ技術 #マルチタスク命令ファインチューニング

ダウンロード数 88

リリース時間 : 11/28/2023

モデル概要

このモデルはテキスト生成タスクに特化しており、革新的なDARE Tiesマージ手法によりパープレキシティ性能を最適化し、最大200Kのコンテキスト長をサポートするため、長文処理が必要なシナリオに適しています。

モデル特徴

DARE Tiesマージ技術

実験的なDARE Tiesマージ手法を採用しており、従来のTiesマージと比較して優れたパープレキシティ性能を示します。

長文コンテキストサポート

最大200Kのコンテキスト長をサポートし、長文ドキュメントや複雑な対話シナリオの処理に適しています。

マルチモデル能力統合

Nous-Capybara-34Bの対話能力、Tess-M-v1.3の汎用能力、airoboros-3_1-yi-34b-200kの長文処理能力を統合しています。

モデル能力

長文生成

対話システム

テキスト継続

命令追従

使用事例

コンテンツ作成

長編小説作成

200Kコンテキスト長の利点を活かした一貫性のある長編ストーリー作成

プロットの一貫性を保った超長文生成が可能

対話システム

複雑な対話シナリオ

大量のコンテキストを含む複雑な対話処理

長い対話履歴の詳細を理解し応答可能

🚀 廃止されました。詳細はこちらを参照: https://huggingface.co/brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity

このモデルは廃止されており、指定されたリンク先を参照してください。

✨ 主な機能

NousResearch/Nous - Capybara - 34B、migtissera/Tess - M - v1.3、bhenrym14/airoboros - 3_1 - yi - 34b - 200k を、mergekitを通じた新しい実験的な「dare ties」の実装でマージしています。詳細は以下の論文とリンクを参照してください。

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

https://github.com/yule - BUAA/MergeLM

https://github.com/cg123/mergekit/tree/dare

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

以下はマージに使用された設定です。

models:
  - model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
    # no parameters necessary for base model
  - model: /home/alpha/Storage/Models/Raw/migtissera_Tess-M-v1.3
    parameters:
      weight: 0.41
      density: 0.50
  - model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
    parameters:
      weight: 0.18
      density: 0.46
  - model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
    parameters:
      weight: 0.41
      density: 0.50
merge_method: dare_ties
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
parameters:
  int8_mask: true
  dtype: bfloat16

高度な使用法

このモデルは、「dare ties」を使用してマージされており、通常のtiesマージよりも良いパープレキシティを持っています。また、合計が1になるモデルの重みが最適であることがテストでわかっています。高コンテキストの結果は、以前のTess 1.2とのdareマージよりも良いようです。

📚 ドキュメント

プロンプトテンプレート

SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:

このモデルはYiモデルであるため、出力が正しくない場合は、BOSトークンを無効にするか、MinPを使用して低温で実行することを試してください（他のサンプラーは使用しないでください）。Yiはデフォルトで「高温」で動作する傾向があります。

また、モデルはCapybaraのように停止トークンを <\s> として「明示的に」出力することがあるため、追加の停止条件として <\s> を追加する必要がある場合があります。また、llama - 2チャット形式にも反応する可能性があります。

GPUでの実行

24GBのGPUでは、exllamav2を使用してYi - 34B - 200Kモデルを 45K - 75Kコンテキスト で実行できます。詳細については、この投稿を参照してください。また、目的のタスクに似たデータに対するexl2量子化をおすすめします。例えば、物語作成を対象とした以下の量子化モデルがあります。 4.0bpw / 3.1bpw