🚀 llm-jp-13b-v1.0
本倉庫提供由日本發起的合作項目 LLM-jp 開發的大語言模型。這些模型在自然語言處理領域具有廣泛的應用前景,能夠為用戶提供高效、準確的文本生成服務。
🚀 快速開始
本項目提供了一系列基於Transformer架構的大語言模型,涵蓋預訓練模型和指令微調模型。以下是使用這些模型的快速入門指南。
✨ 主要特性
- 多種模型變體:提供預訓練模型和指令微調模型,滿足不同應用場景需求。
- 多語言支持:支持日語、英語等多種語言,適用於跨語言任務。
- 高效訓練:採用先進的訓練技術和硬件資源,確保模型性能。
📦 安裝指南
使用本項目的模型前,請確保安裝以下必需的庫及其對應版本:
torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0
你可以使用以下命令進行安裝:
pip install torch transformers tokenizers accelerate
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於Transformer的語言模型 |
總可見令牌數 |
300B |
模型 |
參數 |
層數 |
隱藏層大小 |
頭數 |
上下文長度 |
13b模型 |
13b |
40 |
5120 |
40 |
2048 |
1.3b模型 |
1.3b |
24 |
2048 |
16 |
2048 |
訓練詳情
- 預訓練:
- 硬件:96塊A100 40GB GPU (mdx集群)
- 軟件:Megatron-DeepSpeed
- 指令微調:
分詞器詳情
本模型的分詞器基於 huggingface/tokenizers 的Unigram字節回退模型。詞彙表條目從 llm-jp-tokenizer v2.1 (50k)
轉換而來。有關詞彙表構建過程的詳細信息,請參考 llm-ja-tokenizer
的 README.md。
- 模型:使用Unigram字節回退模型的Hugging Face快速分詞器,需要
tokenizers>=0.14.0
- 訓練算法:SentencePiece Unigram字節回退
- 訓練數據:模型預訓練數據集的一個子集
- 詞彙表大小:50,570(日語、英語和源代碼的混合詞彙表)
數據集詳情
預訓練
模型使用以下數據集的混合進行預訓練:
預訓練使用總共10折不重疊的數據連續進行,每一折約包含27 - 28B個令牌。我們使用從上述相同源數據集獲得的額外(可能)高質量的27B令牌數據完成了預訓練。
指令微調
模型在以下數據集上進行微調:
評估
你可以在這個 排行榜 上查看多個大語言模型的評估結果。我們使用 llm-jp-eval 進行評估。
風險與限制
本項目發佈的模型仍處於研究和開發的早期階段,尚未進行充分調整以確保輸出符合人類意圖和安全考慮。
聯繫我們
如有任何問題,請發送郵件至 llm-jp(at)nii.ac.jp。
許可證
本項目採用 Apache許可證2.0版。
模型卡片作者
按字母順序排列:
Hirokazu Kiyomaru、Hiroshi Matsuda、Jun Suzuki、Namgi Han、Saku Sugawara、Shota Sasaki、Shuhei Kurita、Taishi Nakamura、Takumi Okamoto。