miqu-1-120bオープンソース大規模言語モデル - 多様なモデル融合による円滑で自然なコミュニケーション体験の実現

ホーム

Miqu 1 120b

wolframによって開発

miqu-1-70bをベースにmergekitツールを使用してmiqu-1-70b-sfを層間で交互に融合させて生成された120b混合大規模言語モデル

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #大規模モデル混合 #多言語サポート #長文脈処理

ダウンロード数 15

リリース時間 : 2/3/2024

モデル概要

これは120Bパラメータ規模の大規模言語モデルで、マージ技術によって性能が強化されており、多言語処理をサポートし、特に長い文脈の理解と複雑な対話インタラクションに優れています。

モデル特徴

超大規模パラメータ

120Bパラメータ規模により、より強力な理解力と生成能力を提供

長文脈サポート

32764トークンの長文脈ウィンドウをサポートし、優れた文脈理解を維持

多言語能力

英語、ドイツ語、フランス語、スペイン語、イタリア語をサポート

豊富な量子化バージョン

様々なEXL2とGGUF量子化バージョンを提供し、異なるハードウェア要件に対応

モデル能力

長文テキスト生成

多言語対話

複雑な命令理解

文脈保持

クリエイティブライティング

使用事例

対話システム

AIアシスタント

ChatGPTの代替として使用可能な個人アシスタント

ユーザー評価ではその理解力がChatGPT-4レベルに近いことが示されている

コンテンツ作成

クリエイティブライティング

一貫性のある長編クリエイティブコンテンツを生成

長文テキストの一貫性とスタイルの統一性を維持できる

🚀 miqu-1-120b

このモデルは、mergekit を使用して miqu-1-70b-sf のレイヤーを自身とインターリーブすることで作成された、miqu-1-70b の120Bパラメータのフランケンマージモデルです。

image/jpeg

EXL2: 2.4bpw | 2.65bpw | 3.0bpw | 4.0bpw | 5.0bpw
GGUF: Q2_K-Q5_K_M | IQ3_XXS

このモデルは、Venus-120b-v1.2、MegaDolphin-120b、goliath-120b からインスピレーションを得ています。

CopilotKit（任意のLLMモデルを使用して、あらゆる製品にアプリ内AIコパイロットを構築するためのオープンソースプラットフォーム）のサポートに感謝します。彼らのGitHubをチェックしてみてください。

Lone Striker のEXL2とGGUFの量子化に感謝します！

また、miquliz-120b-v2.0 も利用可能です。これは、Miquの若くて新鮮な姉妹モデルで、Miquとlzlvの新しく改良されたゴリアスのようなマージモデルです。

✨ 主な機能

ユーザーレビュー

u/SomeOddCodeGuy が r/LocalLLaMA で書いたレビューです。

私はこのモデルが大好きです。動作はとても遅いですが、本当に良いモデルです。素晴らしい仕事をしてくれました。

このモデルのおかげで、ChatGPT 4のサブスクリプションを解約しようかと思うくらいです。このモデル、Deepseek や他のいくつかのモデルと一緒に使っていると、もうChatGPTをあまり使わなくなりそうです。

私は16kでQ8を使用していますが、コンテキストに対する忠実度が本当に高いです。今週末にいくつかのテストを試してみるかもしれませんが、現時点では素晴らしいです。

過去2日間、miqu-1を使っていますが、本当に素晴らしいです。私が言っていることを、ChatGPTだけが理解していたような形で理解してくれます。私は意図的に話し方を曖昧にしたり、無意味なことを話したりしていますが、人がするようにしっかりと追いかけてくれます。

Miqu-1は、指示を少し無視することがあります。私はもっと皮肉や侮辱的なAIアシスタントを作ってチャットしようと試み、（数回試した後に）何度も指示して、その後私に謝らないようにしましたが、謝らないようにすることができませんでした。例えば、「うわ、その単語のスペルが上手いですね。本当に賢いですね」と皮肉って、私のスペルミスを嘲笑った後に、「でも本当に、時々スペルミスは起こりますよ」と謝ってしまいます。でも、これが私がこのモデルに対して抱えている唯一の問題です。

モデル詳細

属性	详情
最大コンテキスト	32764トークン（元のベースモデルの奇妙な数値を維持）
レイヤー数	140

プロンプトテンプレート: Mistral

<s>[INST] {prompt} [/INST]

詳細はこちらを参照: 🐺🐦‍⬛ LLM Prompt Format Comparison/Test: Mixtral 8x7B Instruct with 17 different instruct templates : LocalLLaMA

マージ詳細

マージ方法

このモデルは、パススルーマージ方法を使用してマージされました。

マージされたモデル

以下のモデルがマージに含まれています。

152334H/miqu-1-70b-sf

設定

以下のYAML設定がこのモデルの生成に使用されました。

dtype: float16
merge_method: passthrough
slices:
- sources:
  - layer_range: [0, 20]
    model: 152334H/miqu-1-70b-sf
- sources:
  - layer_range: [10, 30]
    model: 152334H/miqu-1-70b-sf
- sources:
  - layer_range: [20, 40]
    model: 152334H/miqu-1-70b-sf
- sources:
  - layer_range: [30, 50]
    model: 152334H/miqu-1-70b-sf
- sources:
  - layer_range: [40, 60]
    model: 152334H/miqu-1-70b-sf
- sources:
  - layer_range: [50, 70]
    model: 152334H/miqu-1-70b-sf
- sources:
  - layer_range: [60, 80]
    model: 152334H/miqu-1-70b-sf

クレジットと特別な感謝

オリジナル（未公開）モデル: mistralai (Mistral AI_)
- ⭐⭐⭐ こちらで彼らの新しくて良い公式モデルを使用してください！ ⭐⭐⭐
流出モデル: miqudev/miqu-1-70b
f16モデル: 152334H/miqu-1-70b-sf
mergekit: arcee-ai/mergekit: Tools for merging pretrained large language models.
mergekit_config.yml: nsfwthrowitaway69/Venus-120b-v1.2

サポート

My Ko-fi page で、感謝の気持ちを伝えるためにチップを投げたり、特定のモデルのテストやマージを優先的に依頼することができます。また、余裕があれば、お気に入りのモデル作成者、量子化担当者、フロントエンド/バックエンド開発者をサポートすることも検討してみてください。彼らはそれに値するでしょう！

免責事項

このモデルには流出した重みが含まれており、その内容上、誰もが使用するべきではありません。 😜

でも本当に言うと:

📄 ライセンス

私が知っていること: 機械によって生成された重みは著作権の対象にならないため、ファイルを取得した後は、使用許可やライセンスを付与したり、使用を制限したりする著作権者は存在しません。

倫理的な観点

私が信じていること: すべての生成AI（LLMを含む）は、主に人間のデータ（公共ドメインと著作権保護されたデータの両方で、おそらく明示的な同意なしに取得されたもの）と、おそらく合成データ（最終的には人間のデータに由来するもの）を使って学習されているために存在しています。誰の知識やデータにも基づいているものが、その基礎となるコンテンツの実際の作成者である一般公衆にも自由にアクセスできることが、公正であると思います。公正な使用、公正なAIです！