🚀 XLNet(基础大小模型)
XLNet是一个在英文语料上预训练的模型。它由Yang等人在论文XLNet: Generalized Autoregressive Pretraining for Language Understanding中提出,并首次在此仓库中发布。
声明:发布XLNet的团队并未为此模型编写模型卡片,此模型卡片由Hugging Face团队编写。
🚀 快速开始
XLNet是一种基于全新广义排列语言建模目标的无监督语言表示学习方法。此外,XLNet采用Transformer - XL作为骨干模型,在处理长上下文的语言任务中表现出色。总体而言,XLNet在各种下游语言任务(如问答、自然语言推理、情感分析和文档排序)上取得了最先进(SOTA)的成果。
✨ 主要特性
- 基于全新的广义排列语言建模目标进行无监督语言表示学习。
- 采用Transformer - XL作为骨干模型,对长上下文语言任务表现优异。
- 在多种下游语言任务中达到了最先进的水平。
📚 详细文档
预期用途和限制
该模型主要用于在下游任务上进行微调。你可以查看模型中心,寻找针对你感兴趣任务的微调版本。
请注意,此模型主要旨在针对使用整个句子(可能经过掩码处理)进行决策的任务进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,你应该考虑像GPT2这样的模型。
💻 使用示例
基础用法
from transformers import XLNetTokenizer, XLNetModel
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')
model = XLNetModel.from_pretrained('xlnet-base-cased')
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-1906-08237,
author = {Zhilin Yang and
Zihang Dai and
Yiming Yang and
Jaime G. Carbonell and
Ruslan Salakhutdinov and
Quoc V. Le},
title = {XLNet: Generalized Autoregressive Pretraining for Language Understanding},
journal = {CoRR},
volume = {abs/1906.08237},
year = {2019},
url = {http://arxiv.org/abs/1906.08237},
eprinttype = {arXiv},
eprint = {1906.08237},
timestamp = {Mon, 24 Jun 2019 17:28:45 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1906-08237.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 许可证
本项目采用MIT许可证。
属性 |
详情 |
模型类型 |
XLNet(基础大小模型) |
训练数据 |
BookCorpus、Wikipedia |