🚀 [MaziyarPanahi/Meta-Llama-3.1-405B-Instruct-GGUF]
本项目提供了 meta-llama/Meta-Llama-3.1-405B-Instruct 模型的 GGUF 格式文件,可用于文本生成任务。
🚀 快速开始
模型信息
示例运行
以下是使用 llama.cpp/llama-cli
运行模型的示例命令:
llama.cpp/llama-cli -m Meta-Llama-3.1-405B-Instruct.Q2_K.gguf-00001-of-00009.gguf -p "write 10 sentences ending with the word apple." -n 1024 -t 40
运行结果如下:
system_info: n_threads = 40 / 80 | AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 1 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 |
sampling:
repeat_last_n = 64, repeat_penalty = 1.000, frequency_penalty = 0.000, presence_penalty = 0.000
top_k = 40, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.800
mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
sampling order:
CFG -> Penalties -> top_k -> tfs_z -> typical_p -> top_p -> min_p -> temperature
generate: n_ctx = 131072, n_batch = 2048, n_predict = 1024, n_keep = 1
write 10 sentences ending with the word apple.
1. I love to eat a crunchy, juicy apple.
2. The teacher gave the student a shiny, red apple.
3. The farmer plucked a ripe, delicious apple.
4. My favorite snack is a sweet, tasty apple.
5. The child picked a fresh, green apple.
6. The cafeteria served a healthy, sliced apple.
7. The vendor sold a crisp, autumn apple.
8. The artist painted a still life with a golden apple.
9. The baby took a big bite of a soft, mealy apple.
10. The family enjoyed a basket of fresh, orchard apple. [end of text]
llama_print_timings: load time = 1068588.13 ms
llama_print_timings: sample time = 2262.60 ms / 136 runs ( 16.64 ms per token, 60.11 tokens per second)
llama_print_timings: prompt eval time = 339484.02 ms / 11 tokens (30862.18 ms per token, 0.03 tokens per second)
llama_print_timings: eval time = 33458013.45 ms / 135 runs (247837.14 ms per token, 0.00 tokens per second)
llama_print_timings: total time = 33800561.08 ms / 146 tokens
Log end
💻 使用示例
基础用法
llama.cpp/llama-cli -m Meta-Llama-3.1-405B-Instruct.Q2_K.gguf-00001-of-00009.gguf -p "write 10 sentences ending with the word apple." -n 1024 -t 40
高级用法
可根据实际需求调整命令中的参数,如 n_predict
(预测的 token 数量)、n_threads
(线程数)等,以满足不同的应用场景。
📚 详细文档
关于 GGUF
GGUF 是由 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式,它是 GGML 的替代方案,目前 llama.cpp 已不再支持 GGML 格式。
以下是已知支持 GGUF 格式的客户端和库:
- llama.cpp:GGUF 的源项目,提供了 CLI 和服务器选项。
- llama-cpp-python:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
- LM Studio:一个易于使用且功能强大的本地 GUI,支持 Windows 和 macOS(Silicon),并提供 GPU 加速。截至 2023 年 11 月 27 日,Linux 版本处于测试阶段。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:一个功能齐全的 Web UI,支持所有平台和 GPU 架构的 GPU 加速,尤其适合故事创作。
- GPT4All:一个免费开源的本地运行 GUI,支持 Windows、Linux 和 macOS,并提供全 GPU 加速。
- LoLLMS Web UI:一个具有许多有趣和独特功能的 Web UI,包括一个完整的模型库,方便模型选择。
- Faraday.dev:一个美观且易于使用的基于角色的聊天 GUI,支持 Windows 和 macOS(Silicon 和 Intel),并提供 GPU 加速。
- candle:一个专注于性能的 Rust ML 框架,支持 GPU 并易于使用。
- ctransformers:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日,ctransformers 已有很长时间未更新,不支持许多最新模型。
📄 许可证
本模型使用的许可证为 llama3.1。
🔖 其他信息
支持语言
- 英语(en)
- 德语(de)
- 法语(fr)
- 意大利语(it)
- 葡萄牙语(pt)
- 印地语(hi)
- 西班牙语(es)
- 泰语(th)
标签
- 量化(quantized)
- 2 位(2-bit)
- 3 位(3-bit)
- GGUF
- 文本生成(text-generation)
🌟 特别感谢
特别感谢 Georgi Gerganov 以及整个 llama.cpp 团队,是他们让这一切成为可能。