Meta-Llama-3.1-405B-Instruct-GGUFオープンソース大規模言語モデル

Home

Meta Llama 3.1 405B Instruct GGUF

Developed by MaziyarPanahi

Meta-Llama-3.1-405B-Instructは、Llama 3.1アーキテクチャに基づく4050億パラメータの大規模言語モデルで、命令追従タスクに最適化され、複数の言語をサポートしています。

大規模言語モデル Supports Multiple Languages#超大規模パラメータ #多言語テキスト生成 #低リソース量子化

Downloads 189.43k

Release Time : 7/24/2024

Model Overview

このモデルは量子化されたGGUF形式のバージョンで、テキスト生成タスクに適しており、特に命令に従って高品質なテキストコンテンツを生成することに長けています。

Model Features

量子化サポート

GGUF形式の量子化バージョンを提供し、2ビットと3ビットの量子化をサポートし、リソースが限られたデバイスでの実行を容易にします。

多言語サポート

英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む複数の言語をサポートしています。

命令追従

命令追従タスクに最適化され、ユーザーの命令に基づいて高品質なテキストコンテンツを生成することができます。

Model Capabilities

テキスト生成

命令追従

多言語サポート

Use Cases

教育

教材生成

教師の命令に基づいて、学生の学習に適した教材を生成します。

生成された教材の内容は正確で、構造が明確です。

コンテンツ作成

創作執筆

ユーザーが提供するテーマまたは命令に基づいて、創造的なテキストを生成します。

生成されたテキストは創造性に富み、ユーザーの要求に合致しています。

🚀 [MaziyarPanahi/Meta-Llama-3.1-405B-Instruct-GGUF]

このプロジェクトは、meta-llama/Meta-Llama-3.1-405B-Instruct モデルのGGUF形式のファイルを提供しており、テキスト生成タスクに使用できます。

🚀 クイックスタート

モデル情報

モデル作成者：meta-llama
元のモデル：meta-llama/Meta-Llama-3.1-405B-Instruct

実行例

以下は、llama.cpp/llama-cli を使用してモデルを実行する例のコマンドです。

llama.cpp/llama-cli -m Meta-Llama-3.1-405B-Instruct.Q2_K.gguf-00001-of-00009.gguf -p "write 10 sentences ending with the word apple." -n 1024 -t 40

実行結果は以下の通りです。

system_info: n_threads = 40 / 80 | AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 1 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 |
sampling:
        repeat_last_n = 64, repeat_penalty = 1.000, frequency_penalty = 0.000, presence_penalty = 0.000
        top_k = 40, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.800
        mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
sampling order:
CFG -> Penalties -> top_k -> tfs_z -> typical_p -> top_p -> min_p -> temperature
generate: n_ctx = 131072, n_batch = 2048, n_predict = 1024, n_keep = 1


write 10 sentences ending with the word apple.
1. I love to eat a crunchy, juicy apple.
2. The teacher gave the student a shiny, red apple.
3. The farmer plucked a ripe, delicious apple.
4. My favorite snack is a sweet, tasty apple.
5. The child picked a fresh, green apple.
6. The cafeteria served a healthy, sliced apple.
7. The vendor sold a crisp, autumn apple.
8. The artist painted a still life with a golden apple.
9. The baby took a big bite of a soft, mealy apple.
10. The family enjoyed a basket of fresh, orchard apple. [end of text]

llama_print_timings:        load time = 1068588.13 ms
llama_print_timings:      sample time =    2262.60 ms /   136 runs   (   16.64 ms per token,    60.11 tokens per second)
llama_print_timings: prompt eval time =  339484.02 ms /    11 tokens (30862.18 ms per token,     0.03 tokens per second)
llama_print_timings:        eval time = 33458013.45 ms /   135 runs   (247837.14 ms per token,     0.00 tokens per second)
llama_print_timings:       total time = 33800561.08 ms /   146 tokens
Log end

💻 使用例

基本的な使用法

llama.cpp/llama-cli -m Meta-Llama-3.1-405B-Instruct.Q2_K.gguf-00001-of-00009.gguf -p "write 10 sentences ending with the word apple." -n 1024 -t 40

高度な使用法

実際のニーズに応じて、コマンド内のパラメータ（例：n_predict（予測するトークン数）、n_threads（スレッド数）など）を調整することで、さまざまなアプリケーションシナリオに対応できます。

📚 ドキュメント

GGUFについて

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式で、GGMLの代替案です。現在、llama.cppはGGML形式をサポートしなくなっています。

以下は、GGUF形式をサポートする既知のクライアントとライブラリです。

llama.cpp：GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
llama-cpp-python：GPU加速、LangChain、OpenAI互換APIサーバーをサポートするPythonライブラリです。
LM Studio：使いやすく強力なローカルGUIで、WindowsとmacOS（Silicon）をサポートし、GPU加速を提供します。2023年11月27日時点で、Linux版はテスト段階です。
text-generation-webui：最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備え、GPU加速をサポートします。
KoboldCpp：全機能のWeb UIで、すべてのプラットフォームとGPUアーキテクチャのGPU加速をサポートし、特にストーリー作成に適しています。
GPT4All：無料でオープンソースのローカル実行GUIで、Windows、Linux、macOSをサポートし、全GPU加速を提供します。
LoLLMS Web UI：多くの面白く独特な機能を備えたWeb UIで、完全なモデルライブラリを含み、モデル選択が容易です。
Faraday.dev：美しく使いやすいロールベースのチャットGUIで、WindowsとmacOS（SiliconとIntel）をサポートし、GPU加速を提供します。
candle：パフォーマンスに重点を置いたRustのMLフレームワークで、GPUをサポートし、使いやすいです。
ctransformers：GPU加速、LangChain、OpenAI互換AIサーバーをサポートするPythonライブラリです。2023年11月27日時点で、ctransformersは長時間更新されておらず、多くの最新モデルをサポートしていません。