🚀 TinyLlama/TinyLlama-1.1B-Chat-v0.4-GGUF
本項目提供了來自 TinyLlama 的 TinyLlama-1.1B-Chat-v0.4 模型的量化 GGUF 文件。這些量化文件能夠在保證一定性能的前提下,有效減少模型的存儲空間和推理時間,適用於資源受限的環境。
🚀 快速開始
模型信息
屬性 |
詳情 |
基礎模型 |
TinyLlama/TinyLlama-1.1B-Chat-v0.4 |
訓練數據集 |
cerebras/SlimPajama-627B、bigcode/starcoderdata、OpenAssistant/oasst_top1_2023-08-25 |
推理狀態 |
否 |
語言 |
英文 |
許可證 |
apache - 2.0 |
模型創建者 |
TinyLlama |
模型名稱 |
TinyLlama-1.1B-Chat-v0.4 |
任務類型 |
文本生成 |
量化者 |
afrideva |
標籤 |
gguf、ggml、quantized、q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0 |
量化模型文件列表
✨ 主要特性
- 架構兼容:TinyLlama 採用了與 Llama 2 完全相同的架構和分詞器,這使得它可以無縫集成到許多基於 Llama 的開源項目中,方便開發者進行二次開發。
- 輕量級設計:模型僅具有 1.1B 參數,體積小巧,對計算資源和內存的需求較低,適合在資源受限的設備上運行,能夠滿足多種對計算和內存要求嚴格的應用場景。
💻 使用示例
基礎用法
from transformers import AutoTokenizer
import transformers
import torch
model = "PY007/TinyLlama-1.1B-Chat-v0.4"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
CHAT_EOS_TOKEN_ID = 32002
prompt = "How to get in a good university?"
formatted_prompt = (
f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
)
sequences = pipeline(
formatted_prompt,
do_sample=True,
top_k=50,
top_p = 0.9,
num_return_sequences=1,
repetition_penalty=1.1,
max_new_tokens=1024,
eos_token_id=CHAT_EOS_TOKEN_ID,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
使用說明
- 你需要
transformers
庫的版本大於等於 4.31。
- 更多信息請查看 TinyLlama 的 GitHub 頁面。
📚 詳細文檔
原始模型介紹
# TinyLlama-1.1B
項目地址:https://github.com/jzhang38/TinyLlama
TinyLlama 項目的目標是在 3 萬億個 token 上預訓練一個 1.1B 的 Llama 模型。通過適當的優化,使用 16 塊 A100 - 40G GPU,我們可以在 “僅” 90 天內完成訓練 🚀🚀。訓練於 2023 年 9 月 1 日開始。
本模型是在 TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T 基礎上進行微調得到的聊天模型。使用的數據集是 OpenAssistant/oasst_top1_2023-08-25,並遵循 chatml 格式。
📄 許可證
本項目採用 apache - 2.0
許可證。你可以在許可證允許的範圍內自由使用、修改和分發本項目的代碼和模型文件。具體的許可證條款請參考 Apache License 2.0。