XLNet-large-cased開源語言模型 - 免費部署處理長上下文任務超厲害

首頁

Xlnet Large Cased

由xlnet開發

XLNet是一種基於廣義排列語言建模目標的非監督語言表示學習方法，採用Transformer-XL作為主幹模型，在處理長上下文任務時表現卓越。

大型語言模型

Transformers

英語開源協議:MIT #排列語言建模 #長上下文處理 #Transformer-XL架構

下載量 2,419

發布時間 : 3/2/2022

模型概述

XLNet是一種先進的預訓練語言模型，通過廣義排列語言建模目標進行訓練，適用於多種自然語言處理任務。

模型特點

廣義排列語言建模

採用新型語言建模目標，克服傳統自迴歸模型的侷限性

長上下文處理能力

基於Transformer-XL架構，特別適合處理長序列語言任務

多任務適應性

在問答、自然語言推理、情感分析等多種任務中表現優異

模型能力

文本特徵提取

序列分類

標記分類

問答系統

使用案例

自然語言處理

情感分析

對文本進行情感傾向性分析

在多個基準測試中達到SOTA水平

問答系統

構建基於上下文的問答系統

在SQuAD等數據集上表現優異

🚀 XLNet（大型模型）

XLNet是一個基於英文語料預訓練的模型。它由Yang等人在論文 XLNet: Generalized Autoregressive Pretraining for Language Understanding 中提出，並首次在這個倉庫發佈。

聲明：發佈XLNet的團隊並未為該模型撰寫模型卡片，此模型卡片由Hugging Face團隊編寫。

🚀 快速開始

XLNet是一個在英文語料上預訓練的模型，可用於多種下游語言任務。你可以在模型中心查找針對特定任務微調後的版本。

✨ 主要特性

新型訓練目標：XLNet是一種基於新穎的廣義排列語言建模目標的無監督語言表示學習方法。
長上下文處理能力：採用Transformer - XL作為骨幹模型，在處理涉及長上下文的語言任務時表現出色。
優異性能：在各種下游語言任務（如問答、自然語言推理、情感分析和文檔排序）中取得了最先進（SOTA）的結果。

💻 使用示例

基礎用法

以下是如何在PyTorch中使用該模型獲取給定文本特徵的示例：

from transformers import XLNetTokenizer, XLNetModel

tokenizer = XLNetTokenizer.from_pretrained('xlnet-large-cased')
model = XLNetModel.from_pretrained('xlnet-large-cased')

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

📚 詳細文檔

預期用途與限制

該模型主要用於在下游任務上進行微調。你可以在模型中心查找針對你感興趣的任務微調後的版本。

請注意，此模型主要用於在使用整個句子（可能經過掩碼處理）進行決策的任務上進行微調，例如序列分類、標記分類或問答任務。對於文本生成等任務，你應該考慮使用GPT2等模型。

BibTeX引用

@article{DBLP:journals/corr/abs-1906-08237,
  author    = {Zhilin Yang and
               Zihang Dai and
               Yiming Yang and
               Jaime G. Carbonell and
               Ruslan Salakhutdinov and
               Quoc V. Le},
  title     = {XLNet: Generalized Autoregressive Pretraining for Language Understanding},
  journal   = {CoRR},
  volume    = {abs/1906.08237},
  year      = {2019},
  url       = {http://arxiv.org/abs/1906.08237},
  eprinttype = {arXiv},
  eprint    = {1906.08237},
  timestamp = {Mon, 24 Jun 2019 17:28:45 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1906-08237.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}