Meta-Llama-3.1-405B-Instruct-GGUF开源大模型 - 支持多语言的指令跟随任务

首页

Meta Llama 3.1 405B Instruct GGUF

由 MaziyarPanahi 开发

Meta-Llama-3.1-405B-Instruct 是一个基于 Llama 3.1 架构的 4050 亿参数大型语言模型，专为指令跟随任务优化，支持多种语言。

大型语言模型支持多种语言#超大规模参数 #多语言文本生成 #低资源量化

下载量 189.43k

发布时间 : 7/24/2024

模型简介

该模型是一个量化后的 GGUF 格式版本，适用于文本生成任务，特别擅长遵循指令生成高质量的文本内容。

模型特点

量化支持

提供 GGUF 格式的量化版本，支持 2 位和 3 位量化，便于在资源有限的设备上运行。

多语言支持

支持包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语在内的多种语言。

指令跟随

专为指令跟随任务优化，能够根据用户指令生成高质量的文本内容。

模型能力

文本生成

指令跟随

多语言支持

使用案例

教育

生成教学材料

根据教师指令生成适合学生学习的教学材料。

生成的教学材料内容准确、结构清晰。

内容创作

创意写作

根据用户提供的主题或指令生成创意文本。

生成的文本富有创意，符合用户要求。

🚀 [MaziyarPanahi/Meta-Llama-3.1-405B-Instruct-GGUF]

本项目提供了 meta-llama/Meta-Llama-3.1-405B-Instruct 模型的 GGUF 格式文件，可用于文本生成任务。

🚀 快速开始

模型信息

模型创建者：meta-llama
原始模型：meta-llama/Meta-Llama-3.1-405B-Instruct

示例运行

以下是使用 llama.cpp/llama-cli 运行模型的示例命令：

llama.cpp/llama-cli -m Meta-Llama-3.1-405B-Instruct.Q2_K.gguf-00001-of-00009.gguf -p "write 10 sentences ending with the word apple." -n 1024 -t 40

运行结果如下：

system_info: n_threads = 40 / 80 | AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 1 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 |
sampling:
        repeat_last_n = 64, repeat_penalty = 1.000, frequency_penalty = 0.000, presence_penalty = 0.000
        top_k = 40, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.800
        mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
sampling order:
CFG -> Penalties -> top_k -> tfs_z -> typical_p -> top_p -> min_p -> temperature
generate: n_ctx = 131072, n_batch = 2048, n_predict = 1024, n_keep = 1


write 10 sentences ending with the word apple.
1. I love to eat a crunchy, juicy apple.
2. The teacher gave the student a shiny, red apple.
3. The farmer plucked a ripe, delicious apple.
4. My favorite snack is a sweet, tasty apple.
5. The child picked a fresh, green apple.
6. The cafeteria served a healthy, sliced apple.
7. The vendor sold a crisp, autumn apple.
8. The artist painted a still life with a golden apple.
9. The baby took a big bite of a soft, mealy apple.
10. The family enjoyed a basket of fresh, orchard apple. [end of text]

llama_print_timings:        load time = 1068588.13 ms
llama_print_timings:      sample time =    2262.60 ms /   136 runs   (   16.64 ms per token,    60.11 tokens per second)
llama_print_timings: prompt eval time =  339484.02 ms /    11 tokens (30862.18 ms per token,     0.03 tokens per second)
llama_print_timings:        eval time = 33458013.45 ms /   135 runs   (247837.14 ms per token,     0.00 tokens per second)
llama_print_timings:       total time = 33800561.08 ms /   146 tokens
Log end

💻 使用示例

基础用法

llama.cpp/llama-cli -m Meta-Llama-3.1-405B-Instruct.Q2_K.gguf-00001-of-00009.gguf -p "write 10 sentences ending with the word apple." -n 1024 -t 40

高级用法

可根据实际需求调整命令中的参数，如 n_predict（预测的 token 数量）、n_threads（线程数）等，以满足不同的应用场景。

📚 详细文档

关于 GGUF

GGUF 是由 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式，它是 GGML 的替代方案，目前 llama.cpp 已不再支持 GGML 格式。

以下是已知支持 GGUF 格式的客户端和库：

llama.cpp：GGUF 的源项目，提供了 CLI 和服务器选项。
llama-cpp-python：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
LM Studio：一个易于使用且功能强大的本地 GUI，支持 Windows 和 macOS（Silicon），并提供 GPU 加速。截至 2023 年 11 月 27 日，Linux 版本处于测试阶段。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：一个功能齐全的 Web UI，支持所有平台和 GPU 架构的 GPU 加速，尤其适合故事创作。
GPT4All：一个免费开源的本地运行 GUI，支持 Windows、Linux 和 macOS，并提供全 GPU 加速。
LoLLMS Web UI：一个具有许多有趣和独特功能的 Web UI，包括一个完整的模型库，方便模型选择。
Faraday.dev：一个美观且易于使用的基于角色的聊天 GUI，支持 Windows 和 macOS（Silicon 和 Intel），并提供 GPU 加速。
candle：一个专注于性能的 Rust ML 框架，支持 GPU 并易于使用。
ctransformers：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日，ctransformers 已有很长时间未更新，不支持许多最新模型。