TinyLlama-1.1B-Chat-v0.4-GGUF开源大模型 - 适用于计算内存受限场景

首页

Tinyllama 1.1B Chat V0.4 GGUF

由 afrideva 开发

TinyLlama-1.1B是一个紧凑型大语言模型，参数规模为11亿，基于Llama 2架构，专为计算和内存受限场景优化。

大型语言模型英语开源协议:Apache-2.0 #轻量级对话模型 #多轮聊天优化 #低资源部署

下载量 65

发布时间 : 11/16/2023

模型简介

这是一个经过微调的聊天模型，基于TinyLlama-1.1B在3万亿token上预训练，使用OpenAssistant数据集进行微调，遵循chatml格式。

模型特点

紧凑高效

仅1.1B参数的小型模型，适合资源受限环境

快速训练

使用16块A100-40G GPU可在90天内完成3万亿token的预训练

兼容性强

采用与Llama 2相同的架构和分词器，可即插即用到Llama生态项目

聊天优化

使用OpenAssistant数据集微调，专为对话场景优化

模型能力

文本生成

对话交互

英文理解与生成

使用案例

聊天应用

智能助手

构建轻量级对话助手

能够生成连贯、相关的对话回复

教育

学习辅导

帮助学生解答学习相关问题

提供教育相关问题的合理回答

🚀 TinyLlama/TinyLlama-1.1B-Chat-v0.4-GGUF

本项目提供了来自 TinyLlama 的 TinyLlama-1.1B-Chat-v0.4 模型的量化 GGUF 文件。这些量化文件能够在保证一定性能的前提下，有效减少模型的存储空间和推理时间，适用于资源受限的环境。

🚀 快速开始

模型信息

属性	详情
基础模型	TinyLlama/TinyLlama-1.1B-Chat-v0.4
训练数据集	cerebras/SlimPajama-627B、bigcode/starcoderdata、OpenAssistant/oasst_top1_2023-08-25
推理状态	否
语言	英文
许可证	apache - 2.0
模型创建者	TinyLlama
模型名称	TinyLlama-1.1B-Chat-v0.4
任务类型	文本生成
量化者	afrideva
标签	gguf、ggml、quantized、q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0

量化模型文件列表

文件名	量化方法	大小
tinyllama-1.1b-chat-v0.4.q2_k.gguf	q2_k	482.15 MB
tinyllama-1.1b-chat-v0.4.q3_k_m.gguf	q3_k_m	549.85 MB
tinyllama-1.1b-chat-v0.4.q4_k_m.gguf	q4_k_m	667.82 MB
tinyllama-1.1b-chat-v0.4.q5_k_m.gguf	q5_k_m	782.05 MB
tinyllama-1.1b-chat-v0.4.q6_k.gguf	q6_k	903.42 MB
tinyllama-1.1b-chat-v0.4.q8_0.gguf	q8_0	1.17 GB

✨ 主要特性

架构兼容：TinyLlama 采用了与 Llama 2 完全相同的架构和分词器，这使得它可以无缝集成到许多基于 Llama 的开源项目中，方便开发者进行二次开发。
轻量级设计：模型仅具有 1.1B 参数，体积小巧，对计算资源和内存的需求较低，适合在资源受限的设备上运行，能够满足多种对计算和内存要求严格的应用场景。

💻 使用示例

基础用法

from transformers import AutoTokenizer
import transformers 
import torch
model = "PY007/TinyLlama-1.1B-Chat-v0.4"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

CHAT_EOS_TOKEN_ID = 32002

prompt = "How to get in a good university?"
formatted_prompt = (
    f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
)


sequences = pipeline(
    formatted_prompt,
    do_sample=True,
    top_k=50,
    top_p = 0.9,
    num_return_sequences=1,
    repetition_penalty=1.1,
    max_new_tokens=1024,
    eos_token_id=CHAT_EOS_TOKEN_ID,
)

for seq in sequences:
    print(f"Result: {seq['generated_text']}")