TinyLlama-1.1B-Chat-v0.4-GGUF開源大模型 - 適用於計算內存受限場景

首頁

Tinyllama 1.1B Chat V0.4 GGUF

由afrideva開發

TinyLlama-1.1B是一個緊湊型大語言模型，參數規模為11億，基於Llama 2架構，專為計算和內存受限場景優化。

大型語言模型英語開源協議:Apache-2.0 #輕量級對話模型 #多輪聊天優化 #低資源部署

下載量 65

發布時間 : 11/16/2023

模型概述

這是一個經過微調的聊天模型，基於TinyLlama-1.1B在3萬億token上預訓練，使用OpenAssistant數據集進行微調，遵循chatml格式。

模型特點

緊湊高效

僅1.1B參數的小型模型，適合資源受限環境

快速訓練

使用16塊A100-40G GPU可在90天內完成3萬億token的預訓練

兼容性強

採用與Llama 2相同的架構和分詞器，可即插即用到Llama生態項目

聊天優化

使用OpenAssistant數據集微調，專為對話場景優化

模型能力

文本生成

對話交互

英文理解與生成

使用案例

聊天應用

智能助手

構建輕量級對話助手

能夠生成連貫、相關的對話回覆

教育

學習輔導

幫助學生解答學習相關問題

提供教育相關問題的合理回答

🚀 TinyLlama/TinyLlama-1.1B-Chat-v0.4-GGUF

本項目提供了來自 TinyLlama 的 TinyLlama-1.1B-Chat-v0.4 模型的量化 GGUF 文件。這些量化文件能夠在保證一定性能的前提下，有效減少模型的存儲空間和推理時間，適用於資源受限的環境。

🚀 快速開始

模型信息

屬性	詳情
基礎模型	TinyLlama/TinyLlama-1.1B-Chat-v0.4
訓練數據集	cerebras/SlimPajama-627B、bigcode/starcoderdata、OpenAssistant/oasst_top1_2023-08-25
推理狀態	否
語言	英文
許可證	apache - 2.0
模型創建者	TinyLlama
模型名稱	TinyLlama-1.1B-Chat-v0.4
任務類型	文本生成
量化者	afrideva
標籤	gguf、ggml、quantized、q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0

量化模型文件列表

文件名	量化方法	大小
tinyllama-1.1b-chat-v0.4.q2_k.gguf	q2_k	482.15 MB
tinyllama-1.1b-chat-v0.4.q3_k_m.gguf	q3_k_m	549.85 MB
tinyllama-1.1b-chat-v0.4.q4_k_m.gguf	q4_k_m	667.82 MB
tinyllama-1.1b-chat-v0.4.q5_k_m.gguf	q5_k_m	782.05 MB
tinyllama-1.1b-chat-v0.4.q6_k.gguf	q6_k	903.42 MB
tinyllama-1.1b-chat-v0.4.q8_0.gguf	q8_0	1.17 GB

✨ 主要特性

架構兼容：TinyLlama 採用了與 Llama 2 完全相同的架構和分詞器，這使得它可以無縫集成到許多基於 Llama 的開源項目中，方便開發者進行二次開發。
輕量級設計：模型僅具有 1.1B 參數，體積小巧，對計算資源和內存的需求較低，適合在資源受限的設備上運行，能夠滿足多種對計算和內存要求嚴格的應用場景。

💻 使用示例

基礎用法

from transformers import AutoTokenizer
import transformers 
import torch
model = "PY007/TinyLlama-1.1B-Chat-v0.4"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

CHAT_EOS_TOKEN_ID = 32002

prompt = "How to get in a good university?"
formatted_prompt = (
    f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
)


sequences = pipeline(
    formatted_prompt,
    do_sample=True,
    top_k=50,
    top_p = 0.9,
    num_return_sequences=1,
    repetition_penalty=1.1,
    max_new_tokens=1024,
    eos_token_id=CHAT_EOS_TOKEN_ID,
)

for seq in sequences:
    print(f"Result: {seq['generated_text']}")