模型简介

该模型是一个小型化的聊天语言模型，适用于生成对话响应，具有较低的硬件需求。

模型特点

轻量化设计

仅1.1B参数，适合资源受限环境部署

多量化版本

提供从q2_k到q8_0多种量化级别选择

对话优化

专为聊天场景训练，能生成连贯的对话响应

模型能力

文本生成

对话响应

英语文本处理

使用案例

聊天应用

智能客服

用于处理简单的客户咨询对话

可生成基本的客服响应

个人助手

作为轻量级个人对话助手

能进行日常对话交流

教育

语言学习

辅助英语学习者练习对话

提供基本的英语对话练习

🚀 TinyLlama/TinyLlama-1.1B-Chat-v0.6-GGUF

本项目提供了来自 TinyLlama 的 TinyLlama-1.1B-Chat-v0.6 模型的量化 GGUF 文件。这些量化文件能在资源受限的环境中更高效地运行模型。

📦 模型信息

属性	详情
基础模型	TinyLlama/TinyLlama-1.1B-Chat-v0.6
训练数据集	cerebras/SlimPajama-627B、bigcode/starcoderdata、OpenAssistant/oasst_top1_2023-08-25
推理状态	否
语言	英语
许可证	apache-2.0
模型创建者	TinyLlama
模型名称	TinyLlama-1.1B-Chat-v0.6
任务类型	文本生成
量化者	afrideva
标签	gguf、ggml、quantized、q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0

📋 量化模型文件列表

名称	量化方法	大小
tinyllama-1.1b-chat-v0.6.q2_k.gguf	q2_k	482.14 MB
tinyllama-1.1b-chat-v0.6.q3_k_m.gguf	q3_k_m	549.85 MB
tinyllama-1.1b-chat-v0.6.q4_k_m.gguf	q4_k_m	667.81 MB
tinyllama-1.1b-chat-v0.6.q5_k_m.gguf	q5_k_m	782.04 MB
tinyllama-1.1b-chat-v0.6.q6_k.gguf	q6_k	903.41 MB
tinyllama-1.1b-chat-v0.6.q8_0.gguf	q8_0	1.17 GB

🔍 原始模型卡片

TinyLlama-1.1B

https://github.com/jzhang38/TinyLlama

TinyLlama 项目旨在使用 3 万亿个标记对一个 11 亿参数的 Llama 模型进行预训练。通过适当的优化，使用 16 块 A100-40G GPU，我们可以在“仅” 90 天内完成这一目标 🚀🚀。训练已于 2023 年 9 月 1 日开始。

我们采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以直接应用于许多基于 Llama 的开源项目中。此外，TinyLlama 仅拥有 11 亿参数，模型体积小巧。这种紧凑性使其能够满足许多对计算和内存要求较低的应用场景。

本模型介绍

这是一个基于 TinyLlama/TinyLlama-1.1B-intermediate-step-955k-2T 微调得到的聊天模型。我们遵循 HF 的 Zephyr 的训练方法。该模型最初在 UltraChat 数据集的一个变体上进行微调，该数据集包含由 ChatGPT 生成的各种合成对话。然后，我们使用 🤗 TRL 的 DPOTrainer 在 openbmb/UltraFeedback 数据集上进一步对齐模型，该数据集包含 64000 个由 GPT - 4 排名的提示和模型完成结果。

💻 使用示例

基础用法

# Install transformers from source - only needed for versions <= v4.34
# pip install git+https://github.com/huggingface/transformers.git
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v0.6", torch_dtype=torch.bfloat16, device_map="auto")

# We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {
        "role": "system",
        "content": "You are a friendly chatbot who always responds in the style of a pirate",
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
# <|system|>
# You are a friendly chatbot who always responds in the style of a pirate.</s>
# <|user|>
# How many helicopters can a human eat in one sitting?</s>
# <|assistant|>
# ...