TinyLlama-1.1B-python-v0.1開源模型 - 輕量級適用於計算資源有限場景

首頁

Tinyllama 1.1B Python V0.1

由TinyLlama開發

TinyLlama是一個11億參數的輕量級Llama模型，在3萬億標記上預訓練，適用於計算資源有限的應用場景。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #輕量級代碼模型 #多語言保留能力 #推測解碼輔助

下載量 1,274

發布時間 : 10/3/2023

模型概述

TinyLlama是一個基於Llama 2架構的輕量級語言模型，經過優化可在90天內完成預訓練。它兼容Llama生態，適合作為輔助模型或用於資源受限環境。

模型特點

高效預訓練

使用16塊A100-40G GPU可在90天內完成3萬億標記的預訓練

輕量級設計

僅11億參數，適合計算和內存資源有限的環境

完全兼容Llama生態

採用與Llama 2相同的架構和分詞器，可即插即用

多語言保留能力

雖然主要微調Python數據，但仍保留C/Java等其他語言能力

輔助模型功能

可作為草稿模型為更大模型（如CodeLlama）提供推測解碼支持

模型能力

文本生成

代碼生成

推測解碼輔助

多語言處理

使用案例

編程輔助

Python代碼生成

基於上下文生成Python代碼片段

HumanEval基準測試準確率14%

多語言代碼補全

支持C/Java等語言的代碼補全（能力弱於Python）

模型加速

推測解碼輔助

作為CodeLlama等大模型的草稿模型加速推理

🚀 TinyLlama-1.1B

TinyLlama項目旨在預訓練一個在3萬億個標記上訓練的11億參數的Llama模型。通過適當的優化，使用16塊A100 - 40G GPU，我們可以在“僅”90天內完成這一目標🚀🚀。訓練已於2023年9月1日開始。該模型採用了與Llama 2完全相同的架構和分詞器，這意味著TinyLlama可以在許多基於Llama構建的開源項目中即插即用。此外，TinyLlama僅具有11億參數，這種輕量級的特性使其能夠適用於對計算和內存要求較低的眾多應用場景。

🚀 快速開始

項目鏈接：https://github.com/jzhang38/TinyLlama

✨ 主要特性

預訓練目標宏大：目標是在3萬億個標記上預訓練一個11億參數的Llama模型。
訓練效率高：通過優化，使用16塊A100 - 40G GPU可在90天內完成訓練。
兼容性強：採用與Llama 2相同的架構和分詞器，可在基於Llama的開源項目中直接使用。
模型輕量：僅11億參數，適用於對計算和內存要求較低的應用。
多語言能力：雖然微調數據僅為Python，但模型在C、Java等其他語言上也保留了一定能力。
可作為輔助模型：可作為草稿模型對CodeLlama系列等更大的模型進行推測解碼。

📚 詳細文檔

本模型詳情

此模型是基於5000億標記的TinyLlama檢查點，使用來自starcoderdata的另外70億條Python數據進行微調（或稱為繼續預訓練）得到的代碼語言模型。

儘管微調數據僅為Python，但該模型在C、Java等許多其他語言上仍保留了一定能力。

在HumanEval基準測試中的準確率為14%。

它可以作為草稿模型對CodeLlama系列等更大的模型進行推測解碼。

📄 許可證

本項目採用Apache - 2.0許可證。

📦 訓練數據

屬性	詳情
模型類型	基於TinyLlama檢查點微調的代碼語言模型
訓練數據	cerebras/SlimPajama - 627B、bigcode/starcoderdata（其中用於微調的是starcoderdata中的70億條Python數據）