🚀 XGen-7B-8K-Base
XGen-7B-8K-Base 是Salesforce AI Research發佈的一系列 XGen 模型(7B
)的官方研究成果。該模型聚焦於長序列建模,為相關研究和應用提供了有力支持。
🚀 快速開始
模型信息
模型列表
基礎模型
指令微調模型
在公共領域指令數據上進行監督微調的模型,僅用於 研究目的。
運行步驟
模型的訓練數據使用OpenAI Tiktoken庫進行分詞。要使用此模型,請通過pip
安裝相應的包:
pip install tiktoken
模型可以按如下方式用作自迴歸採樣器:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)
inputs = tokenizer("The world is", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
✨ 主要特性
- 長序列建模能力:支持8K輸入序列長度的訓練,能夠處理更長的文本序列。
- 多模型選擇:提供不同序列長度的基礎模型以及指令微調模型,滿足多樣化的研究需求。
📄 許可證
本項目採用Apache-2.0許可證。
🔧 道德考量
本次發佈僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途設計或評估。我們強烈建議用戶在部署此模型之前,評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮AI的常見侷限性,遵守適用法律,並在選擇用例時遵循最佳實踐,特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的進一步指導,請參考我們的AUP和AI AUP。
📚 引用
如果您在研究中使用了本項目,請使用以下BibTeX引用:
@misc{XGen,
title={Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length},
author={Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong},
howpublished={ArXiv},
year={2023},
url={https://arxiv.org/abs/2309.03450}
}