🚀 ccdv/lsg-bart-base-16384-arxiv
このモデルは、scientific_papers arxiv データセット上で ccdv/lsg-bart-base-4096-arxiv をファインチューニングしたバージョンです。このモデルは、16384の長いシーケンスを扱うように変換され、1エポックで適切にファインチューニングされています。テストセットでは以下の結果を達成しています。
🚀 クイックスタート
Transformers >= 4.36.1
このモデルはカスタムモデリングファイルに依存しています。trust_remote_code=True を追加する必要があります。
詳細は #13467 を参照してください。
LSG ArXiv 論文。Githubの変換スクリプトはこのリンクから入手できます。
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-16384-arxiv", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-16384-arxiv", trust_remote_code=True)
text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
text,
truncation=True,
max_length=64,
no_repeat_ngram_size=7,
num_beams=2,
early_stopping=True
)
✨ 主な機能
このモデルは、ccdv/lsg-bart-base-4096-arxiv を scientific_papers arxiv データセットでファインチューニングしたものです。16384の長いシーケンスを扱うように変換され、1エポックでファインチューニングされています。
このモデルは、以下のような結果をテストセットで達成しています。
長さ |
グローバルトークン |
ファインチューニング |
ブロックサイズ |
疎度 |
接続数 |
R1 |
R2 |
RL |
RLsum |
16384 |
64 |
完全 |
256 |
0 |
768 |
48.74 |
20.88 |
28.50 |
44.23 |
16384 |
1 |
完全 |
256 |
0 |
768 |
48.66 |
20.92 |
28.50 |
44.18 |
16384 |
64 |
グローバルのみ |
256 |
0 |
768 |
48.08 |
20.42 |
28.00 |
43.65 |
16384 |
1 |
なし |
256 |
0 |
768 |
47.03 |
20.19 |
28.26 |
42.69 |
参考モデル:
長さ |
グローバルトークン |
ファインチューニング |
ブロックサイズ |
疎度 |
接続数 |
R1 |
R2 |
RL |
RLsum |
4096 |
1 |
- |
256 |
0 |
768 |
46.65 |
18.91 |
26.90 |
42.18 |
📚 ドキュメント
モデルの説明
このモデルは、長いシーケンスを扱うためにLocal-Sparse-Globalアテンションを使用しています。

このモデルは約1億4500万のパラメータを持ち(エンコーダ6層 - デコーダ6層)、ccdv/lsg-bart-base-4096-arxiv からウォームスタートされ、長いシーケンスを扱うように変換(エンコーダのみ)され、ファインチューニングされています。
想定される用途と制限
詳細情報が必要です。
学習と評価データ
詳細情報が必要です。
学習手順
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率: 8e-05
- 学習バッチサイズ: 8
- シード: 42
- 勾配累積ステップ数: 4
- 総学習バッチサイズ: 32
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ比率: 0.1
- エポック数: 1.0
生成ハイパーパラメータ
生成中に以下のハイパーパラメータが使用されました。
- データセット名: scientific_papers
- データセット設定名: arxiv
- 評価バッチサイズ: 4
- 評価サンプル数: 6440
- 早期終了: True
- 損失計算時にパディングトークンを無視: True
- 長さペナルティ: 2.0
- 最大長: 320
- 最小長: 32
- ビームサーチ数: 5
- 繰り返しNGramサイズ: None
- シード: 123
フレームワークバージョン
- Transformers 4.18.0
- Pytorch 1.10.1+cu102
- Datasets 2.1.0
- Tokenizers 0.11.6