Fiction Live Kimiko V2 70Bオープンソース大規模モデル - 複数の量子化形式が異なる推論シナリオに適合

ホーム

Fiction.live Kimiko V2 70B GGUF

TheBlokeによって開発

Fiction Live Kimiko V2 70Bは、Llama 2アーキテクチャに基づく大規模言語モデルで、さまざまな量子化形式を提供し、さまざまな推論シナリオに適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Openrail #大規模モデル推論 #多様な量子化サポート #長文処理

ダウンロード数 868

リリース時間 : 8/30/2023

モデル概要

このモデルはGGUF形式のファイルを提供し、複数のクライアントとライブラリをサポートしており、ユーザーがさまざまなシナリオで推論を行うのに便利です。

モデル特徴

多様な量子化形式

AWQ、GPTQ、GGUFなどのさまざまな形式のモデルファイルをサポートし、さまざまな推論ニーズを満たします。

幅広い互換性

llama.cpp、text - generation - webui、KoboldCppなどの複数のクライアントとライブラリと互換性があります。

多様な量子化方法

Q2_K、Q3_K、Q4_Kなどのさまざまな量子化方法をサポートし、必要に応じて異なる量子化レベルを選択できます。

モデル能力

テキスト生成

対話システム

ストーリー作成

使用事例

対話システム

チャットアシスタント

スマートなチャットアシスタントを構築するために使用され、詳細で礼儀正しい回答を提供します。

コンテンツ作成

ストーリー生成

架空のストーリーや小説の内容を生成するために使用されます。

🚀 Fiction Live Kimiko V2 70B - GGUF

このモデルは、テキスト生成タスクに特化したLLaMAベースのモデルです。多様なクライアントやライブラリとの互換性があり、さまざまな環境で利用できます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

このリポジトリには、nRuaifのFiction Live Kimiko V2 70BのGGUF形式のモデルファイルが含まれています。

モデル作成者: nRuaif
オリジナルモデル: Fiction Live Kimiko V2 70B

✨ 主な機能

GGUFについて

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、もはやllama.cppでサポートされていないGGMLの代替品です。GGUFは、GGMLに比べて多くの利点を提供します。例えば、より良いトークン化や特殊トークンのサポートがあり、メタデータもサポートしており、拡張性を持つように設計されています。

GGUFをサポートしていることが知られているクライアントとライブラリの不完全なリストは以下の通りです。

llama.cpp。GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
text-generation-webui。最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
KoboldCpp。全機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
LM Studio。WindowsとmacOS (Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションをサポートしています。
LoLLMS Web UI。多くの興味深い独自の機能を備えた素晴らしいWeb UIで、モデル選択を容易にする完全なモデルライブラリもあります。
Faraday.dev。WindowsとmacOS (SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションをサポートしています。
ctransformers。GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama-cpp-python。GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle。パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートや使いやすさも備えています。

利用可能なリポジトリ

プロンプトテンプレート: Vicuna

好奇心旺盛なユーザーと人工知能アシスタントのチャットです。アシスタントは、ユーザーの質問に役立つ、詳細な、礼儀正しい回答を提供します。USER: {prompt} ASSISTANT:

📦 インストール

GGUFファイルのダウンロード方法

手動でダウンロードする方への注意: 通常、リポジトリ全体をクローンする必要はほとんどありません！複数の異なる量子化形式が提供されており、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui`でのダウンロード

「Download Model」の下で、モデルリポジトリ TheBloke/fiction.live-Kimiko-V2-70B-GGUF を入力し、その下にダウンロードする具体的なファイル名（例: fiction.live-Kimiko-V2-70B.q4_K_M.gguf）を入力します。そして「Download」をクリックします。

コマンドラインでのダウンロード（複数のファイルを一度に含む）

huggingface-hub Pythonライブラリの使用をおすすめします。

pip3 install huggingface-hub>=0.17.1

その後、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/fiction.live-Kimiko-V2-70B-GGUF fiction.live-Kimiko-V2-70B.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

huggingface-cliダウンロードのより高度な使用方法を表示する

パターンを使用して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download TheBloke/fiction.live-Kimiko-V2-70B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cli でのダウンロードに関する詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。

高速な接続（1Gbit/s以上）でのダウンロードを高速化するには、hf_transfer をインストールします。

pip3 install hf_transfer

そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER を 1 に設定します。

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/fiction.live-Kimiko-V2-70B-GGUF fiction.live-Kimiko-V2-70B.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLIのユーザーは、ダウンロードコマンドを実行する前に set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 を使用してください。

💻 使用例

`llama.cpp` コマンドの例

このコミット以降の llama.cpp を使用していることを確認してください。

./main -ngl 32 -m fiction.live-Kimiko-V2-70B.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

-ngl 32 をGPUにオフロードするレイヤー数に変更します。GPUアクセラレーションがない場合は削除してください。 -c 4096 を希望するシーケンス長に変更します。拡張シーケンスモデル（例: 8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。チャットスタイルの会話をしたい場合は、-p <PROMPT> 引数を -i -ins に置き換えます。他のパラメータとその使用方法については、llama.cppのドキュメントを参照してください。

`text-generation-webui` での実行方法

詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。

ctransformersを使用してこのモデルをPythonからロードする方法

まずパッケージをインストールします。

# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステム用のMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

これらのGGUFモデルの1つをロードする簡単なコード例

from ctransformers import AutoModelForCausalLM

# gpu_layersをGPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/fiction.live-Kimiko-V2-70B-GGUF", model_file="fiction.live-Kimiko-V2-70B.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

LangChainでの使用方法

LangChainでllama-cpp-pythonまたはctransformersを使用するガイドは以下の通りです。

🔧 技術詳細

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（このコミット以降）と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。詳細はこのREADMEの冒頭のリストを参照してください。

量子化方法の説明

詳細を表示するにはクリックしてください

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みあたり実効的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロックで、各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

どのファイルがどの方法を使用しているか、およびその方法については、以下の「提供されるファイル」の表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用例
fiction.live-Kimiko-V2-70B.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最も小さいが、品質が大幅に低下する - ほとんどの用途では推奨されません
fiction.live-Kimiko-V2-70B.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常に小さいが、品質が大きく低下する
fiction.live-Kimiko-V2-70B.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常に小さいが、品質が大きく低下する
fiction.live-Kimiko-V2-70B.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小さいが、品質が大幅に低下する
fiction.live-Kimiko-V2-70B.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	レガシー; 小さいが、品質が非常に大きく低下する - Q3_K_Mの使用を推奨
fiction.live-Kimiko-V2-70B.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小さいが、品質の低下が大きい
fiction.live-Kimiko-V2-70B.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中程度で、バランスの良い品質 - 推奨
fiction.live-Kimiko-V2-70B.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	レガシー; 中程度で、バランスの良い品質 - Q4_K_Mの使用を推奨
fiction.live-Kimiko-V2-70B.Q5_K_S.gguf	Q5_K_S	5	47.46 GB	49.96 GB	大きいが、品質の低下が少ない - 推奨
fiction.live-Kimiko-V2-70B.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大きいが、品質の低下が非常に少ない - 推奨
fiction.live-Kimiko-V2-70B.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常に大きいが、品質の低下が極めて少ない
fiction.live-Kimiko-V2-70B.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常に大きいが、品質の低下が極めて少ない - 推奨されない

注意: 上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーをGPUにオフロードすると、RAM使用量が減少し、代わりにVRAMが使用されます。

Q6_KとQ8_0ファイルは分割されており、結合が必要です

注意: HFは50GBを超えるファイルのアップロードをサポートしていません。そのため、Q6_KとQ8_0ファイルは分割ファイルとしてアップロードされています。

Q6_KとQ8_0ファイルに関する指示を表示するにはクリックしてください

q6_K

以下をダウンロードしてください。

fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a
fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b

q8_0

以下をダウンロードしてください。

fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a
fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b

ファイルを結合するには、以下の操作を行います。

LinuxとmacOS:

cat fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-* > fiction.live-Kimiko-V2-70B.Q6_K.gguf && rm fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-*
cat fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-* > fiction.live-Kimiko-V2-70B.Q8_0.gguf && rm fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-*

Windowsコマンドライン:

COPY /B fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a + fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b fiction.live-Kimiko-V2-70B.Q6_K.gguf
del fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b

COPY /B fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a + fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b fiction.live-Kimiko-V2-70B.Q8_0.gguf
del fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b

📄 ライセンス

ソースモデルの作成者は、そのライセンスを creativeml-openrail-m としてリストしており、この量子化も同じライセンスを使用しています。このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスに関する明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場はありません。状況が変化した場合、またはMetaからこの状況に関するフィードバックがあった場合、このセクションを適宜更新します。

その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、オリジナルのモデルリポジトリ nRuaifのFiction Live Kimiko V2 70B に問い合わせてください。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AIのDiscordサーバー

謝辞と貢献方法

chirper.ai チームに感謝します！ gpus.llm-utils.org のClayに感謝します！

多くの方から貢献できるかどうかを尋ねられました。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。

貢献できる方がいらっしゃれば、大変感謝します。これにより、私がより多くのモデルを提供し、新しいAIプロジェクトの作業を開始するのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに関して優先的なサポートを受け、プライベートなDiscordルームへのアクセス権やその他の特典を享受できます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz

Patreonでの特別な言及: Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov

すべての寛大なパトロンと寄付者の皆様に感謝します！そして、a16zにも再度感謝します。