🚀 ccdv/lsg-bart-base-16384-mediasum
このモデルは、ccdv/lsg-bart-base-4096-mediasum を ccdv/mediasum roberta_prepended mediasum データセットでファインチューニングしたバージョンです。このモデルは16384の長いシーケンスを扱うように変換され、1エポックの間で適切にファインチューニングされています。
🚀 クイックスタート
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)
text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
text,
truncation=True,
max_length=64,
no_repeat_ngram_size=7,
num_beams=2,
early_stopping=True
)
✨ 主な機能
このモデルは、Local-Sparse-Globalアテンションを利用して長いシーケンスを扱うことができます。

モデルには約1億4500万個のパラメータがあり(エンコーダ6層 - デコーダ6層)、ccdv/lsg-bart-base-4096-mediasum からウォームスタートされ、長いシーケンスを扱うように変換(エンコーダのみ)され、ファインチューニングされています。
テストセットでの結果
長さ |
グローバルトークン |
ファインチューニング |
ブロックサイズ |
疎度 |
接続数 |
R1 |
R2 |
RL |
RLsum |
16384 |
64 |
完全 |
256 |
0 |
768 |
35.31 |
18.35 |
31.81 |
32.47 |
16384 |
1 |
完全 |
256 |
0 |
768 |
35.21 |
18.20 |
31.73 |
32.37 |
16384 |
64 |
グローバルのみ |
256 |
0 |
768 |
35.22 |
18.08 |
31.54 |
32.21 |
16384 |
1 |
なし |
256 |
0 |
768 |
35.17 |
18.13 |
31.54 |
32.20 |
参照モデル
長さ |
グローバルトークン |
ファインチューニング |
ブロックサイズ |
疎度 |
接続数 |
R1 |
R2 |
RL |
RLsum |
4096 |
1 |
- |
256 |
0 |
768 |
35.16 |
18.13 |
31.54 |
32.20 |
📦 インストール
このモデルを使用するには、以下の条件を満たす必要があります。
- Transformers >= 4.36.1
- このモデルはカスタムモデリングファイルに依存しているため、
trust_remote_code=True
を追加する必要があります。
- 詳細は #13467 を参照してください。
🔧 技術詳細
トレーニングハイパーパラメータ
トレーニング時に使用されたハイパーパラメータは以下の通りです。
- 学習率: 8e-05
- トレーニングバッチサイズ: 8
- シード: 42
- 勾配累積ステップ数: 4
- 総トレーニングバッチサイズ: 32
- オプティマイザ: Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ比率: 0.1
- エポック数: 1.0
生成ハイパーパラメータ
生成時に使用されたハイパーパラメータは以下の通りです。
- データセット名: ccdv/mediasum
- データセット構成名: roberta_prepended
- 評価バッチサイズ: 8
- 評価サンプル数: 10000
- 早期終了: True
- 損失計算時にパディングトークンを無視: True
- 長さペナルティ: 2.0
- 最大長: 128
- 最小長: 3
- ビームサーチのビーム数: 5
- 繰り返し禁止n-gramサイズ: None
- シード: 123
フレームワークのバージョン
- Transformers 4.18.0
- Pytorch 1.10.1+cu102
- Datasets 2.1.0
- Tokenizers 0.11.6
関連リンク
- LSG ArXiv 論文
- Github/変換スクリプトはこの リンク から入手できます。
📚 ドキュメント
想定される用途と制限事項
詳細情報は後日提供予定です。
トレーニングと評価データ
詳細情報は後日提供予定です。