ARIA-70B-V2-GGUFオープンソース大規模モデル - 英仏両語のテキスト生成タスクを無料でサポート

ホーム

ARIA 70B V2 GGUF

TheBlokeによって開発

ARIA 70B V2 は Llama 2 アーキテクチャに基づく大規模言語モデルで、フランス語と英語をサポートし、テキスト生成タスクに特化しています。

大規模言語モデル複数言語対応#多言語テキスト生成 #大規模モデル推論 #教育支援

ダウンロード数 1,100

リリース時間 : 9/20/2023

モデル概要

ARIA 70B V2 は700億パラメータの大規模言語モデルで、MetaのLlama 2アーキテクチャに基づいて開発されました。このモデルは最適化されており、高品質なテキストコンテンツを生成でき、様々な自然言語処理タスクに適しています。

モデル特徴

多言語サポート

フランス語と英語のテキスト生成を同時にサポート

大規模パラメータ

700億パラメータの強力な言語理解能力

安全な生成

有害または不適切なコンテンツの生成を防ぐためのセキュリティメカニズムを内蔵

モデル能力

テキスト生成

対話システム

コンテンツ作成

言語理解

使用事例

教育

言語学習アシスタント

学生がフランス語と英語を学ぶのを支援

正確な言語の説明と例を提供

コンテンツ作成

記事執筆

クリエイターが高品質な記事を生成するのを支援

流暢で一貫性のあるテキスト出力

🚀 ARIA 70B V2 - GGUF

このリポジトリは、自然言語処理のための高性能なモデルであるARIA 70B V2のGGUF形式のモデルファイルを提供しています。GGUF形式は最新のモデル形式で、多くのクライアントやライブラリでサポートされています。

🚀 クイックスタート

このモデルを使用するには、まず適切なクライアントやライブラリを選択し、モデルファイルをダウンロードします。以下のセクションで詳細な手順を説明します。

✨ 主な機能

多言語対応：複数の言語に対応しており、幅広い用途で使用できます。
高性能：70Bのパラメータを持つ大規模モデルで、高精度なテキスト生成が可能です。
多様なクライアントサポート：llama.cpp、text-generation-webuiなど、多くのクライアントやライブラリでサポートされています。

📦 インストール

GGUFファイルのダウンロード方法

手動でダウンロードする場合は、通常、リポジトリ全体をクローンする必要はありません。複数の量子化形式が提供されており、ほとんどのユーザーは単一のファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui` でのダウンロード方法

「Download Model」の下で、モデルリポジトリ TheBloke/ARIA-70B-V2-GGUF を入力し、その下にダウンロードする特定のファイル名（例：aria-70b-v2.Q4_K_M.gguf）を入力します。そして「Download」をクリックします。

コマンドラインでのダウンロード方法

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

次に、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/ARIA-70B-V2-GGUF aria-70b-v2.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

モデルの実行方法

`llama.cpp` での実行例

llama.cpp を d0cee0d 以降のコミットを使用していることを確認してください。

./main -ngl 32 -m aria-70b-v2.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "[INST] <<SYS>>\nYou are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.\n<</SYS>>\n{prompt}[/INST]"

-ngl 32 をGPUにオフロードするレイヤー数に変更します。GPUアクセラレーションがない場合は削除します。
-c 4096 を目的のシーケンス長に変更します。拡張シーケンスモデル（例：8K、16K、32K）の場合は、必要なRoPEスケーリングパラメータがGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

その他のパラメータとその使用方法については、the llama.cpp documentation を参照してください。

`text-generation-webui` での実行方法

詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。

ctransformersを使用してこのモデルをPythonコードで読み込む方法

パッケージのインストール

システムに応じて、以下のコマンドのいずれかを実行します。

#  GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers
#  CUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
#  AMD ROCm GPUアクセラレーション付き (Linuxのみ)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
#  macOSシステムのみのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers

📚 詳細ドキュメント

モデル情報

属性	详情
モデルタイプ	llama
モデル作成者	Faradaylab
元のモデル	ARIA 70B V2
ライセンス	llama2

プロンプトテンプレート

[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]

GGUFについて

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。GGMLの代替となるもので、現在はllama.cppではGGMLがサポートされなくなっています。

以下は、GGUFをサポートしていることが知られているクライアントとライブラリの不完全なリストです。

llama.cpp。GGUFのソースプロジェクトです。CLIとサーバーオプションを提供します。
text-generation-webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
KoboldCpp、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションを備えた、完全な機能を持つWeb UIです。特にストーリーテリングに適しています。
LM Studio、WindowsとmacOS（Silicon）用の使いやすく強力なローカルGUIで、GPUアクセラレーションを備えています。
LoLLMS Web UI、多くの興味深い独自の機能を備えた優れたWeb UIで、簡単なモデル選択のための完全なモデルライブラリも含まれています。
Faraday.dev、WindowsとmacOS（SiliconとIntelの両方）用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションを備えています。
ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama-cpp-python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。

利用可能なリポジトリ

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミット d0cee0d 以降）と互換性があります。

また、多くのサードパーティのUIやライブラリとも互換性があります。詳細はこのREADMEの先頭のリストを参照してください。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は次のとおりです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みごとに実効的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。

どのファイルがどの方法を使用しているか、およびその方法については、以下の「提供されるファイル」の表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
aria-70b-v2.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最も小さいが、品質が大幅に損失する - ほとんどの目的には推奨されない
aria-70b-v2.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常に小さいが、品質が大幅に損失する
aria-70b-v2.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常に小さいが、品質が大幅に損失する
aria-70b-v2.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小さいが、品質が大幅に損失する
aria-70b-v2.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	レガシー; 小さいが、品質が非常に大幅に損失する - Q3_K_Mを使用することを推奨
aria-70b-v2.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小さいが、品質が大きく損失する
aria-70b-v2.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中程度で、バランスの良い品質 - 推奨
aria-70b-v2.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	レガシー; 中程度で、バランスの良い品質 - Q4_K_Mを使用することを推奨
aria-70b-v2.Q5_K_S.gguf	Q5_K_S	5	47.46 GB	49.96 GB	大きいが、品質の損失が少ない - 推奨
aria-70b-v2.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大きいが、品質の損失が非常に少ない - 推奨
aria-70b-v2.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常に大きいが、品質の損失が極めて少ない
aria-70b-v2.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常に大きいが、品質の損失が極めて少ない - 推奨されない

注意：上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAM使用量が減少し、代わりにVRAMが使用されます。

Q6_KとQ8_0ファイルは分割されており、結合が必要です

注意：HFは50GBを超えるファイルのアップロードをサポートしていません。そのため、Q6_KとQ8_0ファイルは分割ファイルとしてアップロードされています。

Q6_KとQ8_0ファイルに関する指示を表示するにはクリック

q6_K

以下をダウンロードしてください。

aria-70b-v2.Q6_K.gguf-split-a
aria-70b-v2.Q6_K.gguf-split-b

q8_0

以下をダウンロードしてください。

aria-70b-v2.Q8_0.gguf-split-a
aria-70b-v2.Q8_0.gguf-split-b

ファイルを結合するには、以下の操作を行います。

LinuxとmacOS:

cat aria-70b-v2.Q6_K.gguf-split-* > aria-70b-v2.Q6_K.gguf && rm aria-70b-v2.Q6_K.gguf-split-*
cat aria-70b-v2.Q8_0.gguf-split-* > aria-70b-v2.Q8_0.gguf && rm aria-70b-v2.Q8_0.gguf-split-*

Windowsコマンドライン:

COPY /B aria-70b-v2.Q6_K.gguf-split-a + aria-70b-v2.Q6_K.gguf-split-b aria-70b-v2.Q6_K.gguf
del aria-70b-v2.Q6_K.gguf-split-a aria-70b-v2.Q6_K.gguf-split-b

COPY /B aria-70b-v2.Q8_0.gguf-split-a + aria-70b-v2.Q8_0.gguf-split-b aria-70b-v2.Q8_0.gguf
del aria-70b-v2.Q8_0.gguf-split-a aria-70b-v2.Q8_0.gguf-split-b