🚀 scholawrite-bert-classifier モデルカード
このモデルは、LaTeX形式の学術論文の執筆において、次の執筆意図を予測するために開発されたものです。学術論文の執筆支援に役立ちます。
🚀 クイックスタート
import os
from dotenv import load_dotenv
import torch
from transformers import BertTokenizer, BertForSequenceClassification, RobertaTokenizer, RobertaForSequenceClassification
from huggingface_hub import login
load_dotenv()
HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
login(token=HUGGINGFACE_TOKEN)
TOTAL_CLASSES = 15
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokenizer.add_tokens("<INPUT>")
tokenizer.add_tokens("</INPUT>")
tokenizer.add_tokens("<BT>")
tokenizer.add_tokens("</BT>")
tokenizer.add_tokens("<PWA>")
tokenizer.add_tokens("</PWA>")
model = BertForSequenceClassification.from_pretrained('minnesotanlp/scholawrite-bert-classifier', num_labels=TOTAL_CLASSES)
before_text = "sample before text"
text = "<INPUT>" + "<BT>" + before_text + "</BF> " + "</INPUT>"
input = tokenizer(text, return_tensors="pt")
pred = model(input["input_ids"]).logits.argmax(1)
print("class:", pred)
✨ 主な機能
- このモデルは、LaTeX形式の学術論文の執筆において、次の執筆意図を予測することができます。
- 入力として特殊トークンで囲まれた「before」テキストを受け取り、15種類の事前定義されたラベルのうち1つを出力します。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、論文ではBERT - SW - CLFと呼ばれています。Hugging Faceのbert - base - uncased
をベースに、ScholaWriteデータセットのtrain
分割を使用してファインチューニングされています。このモデルの唯一の目的は、LaTeX形式の学術論文から次の執筆意図を予測することです。
- 開発者: *Linghe Wang, *Minhwa Lee, Ross Volkov, Luan Chau, Dongyeop Kang
- 言語: 英語
- ファインチューニング元のモデル: [bert - base - uncased](https://huggingface.co/google - bert/bert - base - uncased)
モデルのソース
モデルの用途
直接的な利用
このモデルは、LaTeX論文のドラフトにおける次の執筆意図の予測に使用されます。特殊トークンで囲まれた「before」テキストを入力として受け取り、15種類の事前定義されたラベルのうち1つの次の執筆意図を出力します。
想定外の利用
このモデルは、次の執筆意図の予測のためにのみファインチューニングされており、閉じた環境で推論されます。主な目的は、データセットの有用性を検証することです。学術的な利用に適していますが、本番環境、一般公開、または消費者向けサービスには適していません。また、LaTeX論文のドラフトにおける次の意図予測以外のタスクでこのモデルを使用すると、うまく機能しない可能性があります。
バイアスと制限
このモデルのバイアスと制限は、主にファインチューニングに使用されたデータセット(ScholaWrite)に由来します。
- まず、ScholaWriteデータセットは現在、コンピュータサイエンス分野に限定されています。LaTeXは主にコンピュータサイエンスのジャーナルや会議で使用されるため、このデータセットの分野固有の焦点は、モデルの他の科学分野への汎化能力を制限する可能性があります。
- 第二に、すべての参加者は米国のR1大学の初期キャリアの研究者(例:博士課程学生)であり、これはモデルが専門家の専門的な執筆行動や認知プロセスを学習できないことを意味します。
- 第三に、データセットは英語の執筆に限定されており、多言語または非英語のコンテキストでの次の執筆意図の予測能力を制限します。
ファインチューニングの詳細
ファインチューニングデータ
このモデルは、minnesotanlp/scholawriteデータセットのtrain
分割を使用してファインチューニングされています。これは、学術論文のエンドツーエンドの執筆プロセスのキーストロークログであり、各キーストロークの背後にある認知的な執筆意図が詳細に注釈付けされています。データセットには追加の前処理やフィルタリングは行われていません。
ファインチューニング手順
モデルは、プロンプトのbefore_text
セクションを入力として渡し、intention
を正解データとして使用してファインチューニングされました。モデルは、各意図ラベル(1 - 15)に応じて整数を出力します。
ファインチューニングのハイパーパラメータ
- ファインチューニング方式: fp32
- 学習率 2e - 5
- デバイスごとのトレーニングバッチサイズ 2
- デバイスごとの評価バッチサイズ 8
- トレーニングエポック数 10
- 重み減衰 0.01
マシン仕様
- ハードウェア: 2 X Nvidia RTX A6000
- 使用時間: 3.5時間
- コンピュートリージョン: Minnesota
テスト手順
テストデータ
minnesotanlp/scholawrite
評価指標
トレーニングデータとテストデータの両方でクラス不均衡があるため、重み付きF1を使用してパフォーマンスを測定しています。
結果
|
BERT |
RoBERTa |
LLama - 8B - Instruct |
GPT - 4o |
Base |
0.04 |
0.02 |
0.12 |
0.08 |
+ SW |
0.64 |
0.64 |
0.13 |
- |
まとめ
上の表は、ベースラインとファインチューニングされたモデルにおける執筆意図の予測に関する重み付きF1スコアを示しています。ScholaWriteでファインチューニングされたすべてのモデルは、ベースラインと比較してパフォーマンスが向上しています。BERTとRoBERTaが最も大きな改善を達成し、LLama - 8B - Instructはファインチューニング後に若干の改善を示しました。これらの結果は、ScholaWriteデータセットが言語モデルを執筆者の意図に合わせる効果を示しています。
🔧 技術詳細
このモデルは、Hugging Faceのbert - base - uncased
をベースに構築されています。ファインチューニングには、ScholaWriteデータセットのtrain
分割を使用しています。モデルは、入力として特殊トークンで囲まれた「before」テキストを受け取り、15種類の事前定義されたラベルのうち1つを出力します。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
BibTeX
@misc{wang2025scholawritedatasetendtoendscholarly,
title={ScholaWrite: A Dataset of End-to-End Scholarly Writing Process},
author={Linghe Wang and Minhwa Lee and Ross Volkov and Luan Tuyen Chau and Dongyeop Kang},
year={2025},
eprint={2502.02904},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02904},
}