🚀 llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
本倉庫提供了由日本發起的合作項目 LLM-jp 開發的大語言模型。這些模型在自然語言處理領域具有重要價值,能為相關研究和應用提供強大的支持。
🚀 快速開始
在使用本模型之前,你需要安裝所需的庫及其指定版本。
所需庫及其版本
- torch>=2.0.0
- transformers>=4.34.0
- tokenizers>=0.14.0
- accelerate==0.23.0
✨ 主要特性
本項目提供了多種模型變體,涵蓋指令模型和預訓練模型,以滿足不同的應用需求。同時,模型採用了先進的 Transformer 架構,在自然語言處理任務中具有出色的表現。
模型變體
指令模型
預訓練模型
檢查點格式:Hugging Face Transformers(Megatron-DeepSpeed 格式的模型可在 此處 獲取)
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答:"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於 Transformer 的語言模型 |
總所見令牌數 |
300B |
模型 |
參數 |
層數 |
隱藏層大小 |
頭數 |
上下文長度 |
13b 模型 |
13b |
40 |
5120 |
40 |
2048 |
1.3b 模型 |
1.3b |
24 |
2048 |
16 |
2048 |
訓練信息
預訓練
- 硬件:96 塊 A100 40GB GPU(mdx 集群)
- 軟件:Megatron-DeepSpeed
指令微調
分詞器
本模型的分詞器基於 huggingface/tokenizers 的 Unigram byte-fallback 模型。詞彙表條目由 llm-jp-tokenizer v2.1 (50k)
轉換而來。有關詞彙表構建過程的詳細信息,請參考 llm-ja-tokenizer
的 README.md。
- 模型:使用 Unigram byte-fallback 模型的 Hugging Face Fast Tokenizer,需要
tokenizers>=0.14.0
- 訓練算法:SentencePiece Unigram byte-fallback
- 訓練數據:模型預訓練數據集的一個子集
- 詞彙表大小:50,570(日語、英語和源代碼的混合詞彙表)
數據集
預訓練
模型使用以下數據集的混合進行預訓練:
預訓練使用總共 10 折不重疊的數據連續進行,每一折大約包含 27 - 28B 令牌。我們使用從上述相同源數據集獲得的額外(可能)高質量 27B 令牌數據完成了預訓練。
指令微調
模型在以下數據集上進行了微調:
評估
你可以在這個 排行榜 上查看幾個大語言模型的評估結果。我們使用 llm-jp-eval 進行評估。
風險與限制
此處發佈的模型仍處於我們研究和開發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
諮詢問題
如有問題,請發送郵件至 llm-jp(at)nii.ac.jp
📄 許可證
本項目採用 Apache 許可證 2.0 版。
模型卡片作者
姓名按字母順序排列
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.