🚀 XLNet(基礎大小模型)
XLNet是一個在英文語料上預訓練的模型。它由Yang等人在論文XLNet: Generalized Autoregressive Pretraining for Language Understanding中提出,並首次在此倉庫中發佈。
聲明:發佈XLNet的團隊並未為此模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
🚀 快速開始
XLNet是一種基於全新廣義排列語言建模目標的無監督語言表示學習方法。此外,XLNet採用Transformer - XL作為骨幹模型,在處理長上下文的語言任務中表現出色。總體而言,XLNet在各種下游語言任務(如問答、自然語言推理、情感分析和文檔排序)上取得了最先進(SOTA)的成果。
✨ 主要特性
- 基於全新的廣義排列語言建模目標進行無監督語言表示學習。
- 採用Transformer - XL作為骨幹模型,對長上下文語言任務表現優異。
- 在多種下游語言任務中達到了最先進的水平。
📚 詳細文檔
預期用途和限制
該模型主要用於在下游任務上進行微調。你可以查看模型中心,尋找針對你感興趣任務的微調版本。
請注意,此模型主要旨在針對使用整個句子(可能經過掩碼處理)進行決策的任務進行微調,例如序列分類、標記分類或問答。對於文本生成等任務,你應該考慮像GPT2這樣的模型。
💻 使用示例
基礎用法
from transformers import XLNetTokenizer, XLNetModel
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')
model = XLNetModel.from_pretrained('xlnet-base-cased')
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-1906-08237,
author = {Zhilin Yang and
Zihang Dai and
Yiming Yang and
Jaime G. Carbonell and
Ruslan Salakhutdinov and
Quoc V. Le},
title = {XLNet: Generalized Autoregressive Pretraining for Language Understanding},
journal = {CoRR},
volume = {abs/1906.08237},
year = {2019},
url = {http://arxiv.org/abs/1906.08237},
eprinttype = {arXiv},
eprint = {1906.08237},
timestamp = {Mon, 24 Jun 2019 17:28:45 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1906-08237.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 許可證
本項目採用MIT許可證。
屬性 |
詳情 |
模型類型 |
XLNet(基礎大小模型) |
訓練數據 |
BookCorpus、Wikipedia |