🚀 TinyLlama/TinyLlama-1.1B-Chat-v0.4-GGUF
本项目提供了来自 TinyLlama 的 TinyLlama-1.1B-Chat-v0.4 模型的量化 GGUF 文件。这些量化文件能够在保证一定性能的前提下,有效减少模型的存储空间和推理时间,适用于资源受限的环境。
🚀 快速开始
模型信息
属性 |
详情 |
基础模型 |
TinyLlama/TinyLlama-1.1B-Chat-v0.4 |
训练数据集 |
cerebras/SlimPajama-627B、bigcode/starcoderdata、OpenAssistant/oasst_top1_2023-08-25 |
推理状态 |
否 |
语言 |
英文 |
许可证 |
apache - 2.0 |
模型创建者 |
TinyLlama |
模型名称 |
TinyLlama-1.1B-Chat-v0.4 |
任务类型 |
文本生成 |
量化者 |
afrideva |
标签 |
gguf、ggml、quantized、q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0 |
量化模型文件列表
✨ 主要特性
- 架构兼容:TinyLlama 采用了与 Llama 2 完全相同的架构和分词器,这使得它可以无缝集成到许多基于 Llama 的开源项目中,方便开发者进行二次开发。
- 轻量级设计:模型仅具有 1.1B 参数,体积小巧,对计算资源和内存的需求较低,适合在资源受限的设备上运行,能够满足多种对计算和内存要求严格的应用场景。
💻 使用示例
基础用法
from transformers import AutoTokenizer
import transformers
import torch
model = "PY007/TinyLlama-1.1B-Chat-v0.4"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
CHAT_EOS_TOKEN_ID = 32002
prompt = "How to get in a good university?"
formatted_prompt = (
f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
)
sequences = pipeline(
formatted_prompt,
do_sample=True,
top_k=50,
top_p = 0.9,
num_return_sequences=1,
repetition_penalty=1.1,
max_new_tokens=1024,
eos_token_id=CHAT_EOS_TOKEN_ID,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
使用说明
- 你需要
transformers
库的版本大于等于 4.31。
- 更多信息请查看 TinyLlama 的 GitHub 页面。
📚 详细文档
原始模型介绍
# TinyLlama-1.1B
项目地址:https://github.com/jzhang38/TinyLlama
TinyLlama 项目的目标是在 3 万亿个 token 上预训练一个 1.1B 的 Llama 模型。通过适当的优化,使用 16 块 A100 - 40G GPU,我们可以在 “仅” 90 天内完成训练 🚀🚀。训练于 2023 年 9 月 1 日开始。
本模型是在 TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T 基础上进行微调得到的聊天模型。使用的数据集是 OpenAssistant/oasst_top1_2023-08-25,并遵循 chatml 格式。
📄 许可证
本项目采用 apache - 2.0
许可证。你可以在许可证允许的范围内自由使用、修改和分发本项目的代码和模型文件。具体的许可证条款请参考 Apache License 2.0。