🚀 Transfo-xl-wt103
このモデルは、相対位置埋め込みを持つ因果的(一方向)トランスフォーマーで、以前に計算された隠れ状態を再利用してより長いコンテキストを扱えます。テキスト生成タスクに特化しています。
🚀 クイックスタート
from transformers import TransfoXLTokenizer, TransfoXLModel
import torch
tokenizer = TransfoXLTokenizer.from_pretrained("transfo-xl-wt103")
model = TransfoXLModel.from_pretrained("transfo-xl-wt103")
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
✨ 主な機能
- 相対位置埋め込みを用いた因果的トランスフォーマー
- 以前に計算された隠れ状態を再利用して長いコンテキストを扱う
- 適応的ソフトマックス入出力を使用
📚 ドキュメント
モデル詳細
モデル説明:
Transformer-XLモデルは、相対位置(正弦波)埋め込みを持つ因果的(一方向)トランスフォーマーで、以前に計算された隠れ状態を再利用してより長いコンテキスト(メモリ)を扱うことができます。このモデルはまた、適応的ソフトマックス入力と出力(結合)を使用しています。
用途
直接的な用途
このモデルは、テキスト生成に使用できます。
著者は、関連論文で使用される語彙に関する追加の注記を提供しています。
我々は、Transformer-XLがテキスト生成、教師なし特徴学習、画像および音声モデリングの分野で興味深い応用があると考えています。
誤用と範囲外の使用
このモデルは、人々に敵意を持ったり疎外感を与える環境を意図的に作るために使用してはなりません。また、このモデルは人やイベントの事実や真実を表現するように訓練されていないため、そのような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。
リスク、制限事項とバイアス
⚠️ 重要提示
読者は、このセクションには不快な、不快な内容が含まれており、過去と現在のステレオタイプを拡散する可能性があることに注意する必要があります。
多くの研究が、言語モデルのバイアスと公平性の問題を探求しています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。
訓練
訓練データ
著者は、関連論文で使用される語彙に関する追加の注記を提供しています。
最良のモデルは、Wikitext-103データセットで訓練されました。我々は、Transformer-XLにWikitext-103のテストセットからランダムにサンプリングされた最大512個の連続トークンのコンテキストを与えます。その後、Transformer-XLを実行して、事前に定義された数のトークン(我々の場合は500または1,000)を生成します。各生成ステップでは、まず次のステップの分布の上位40の確率を見つけ、再正規化された分布に基づいて上位40のトークンからサンプリングします。読みやすくするために、コンテキスト、生成されたテキスト、および参照テキストをデトークン化します。
著者は、関連論文で説明されている次の事前訓練コーパスをモデルに使用しています。
- WikiText-103 (Merity et al., 2016)
訓練手順
前処理
著者は、関連論文で使用される訓練手順に関する追加の注記を提供しています。
enwik8と似ていますが異なり、text8は、テキストを小文字に変換し、aからzまでの26文字とスペース以外のすべての文字を削除することで作成された1億の処理済みWikipedia文字を含んでいます。類似性のため、我々はenwik8の最良のモデルと同じハイパーパラメータをtext8に適用し、さらなるチューニングを行わずに使用します。
評価
結果
方法 |
enwiki8 |
text8 |
One Billion Word |
WT-103 |
PTB (微調整なし) |
Transformer-XL. |
0.99 |
1.08 |
21.8 |
18.3 |
54.5 |
引用情報
@misc{https://doi.org/10.48550/arxiv.1901.02860,
doi = {10.48550/ARXIV.1901.02860},
url = {https://arxiv.org/abs/1901.02860},
author = {Dai, Zihang and Yang, Zhilin and Yang, Yiming and Carbonell, Jaime and Le, Quoc V. and Salakhutdinov, Ruslan},
keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context},
publisher = {arXiv},
year = {2019},
copyright = {Creative Commons Attribution Non Commercial Share Alike 4.0 International}
}