Scholawrite-bert-classifierオープンソースモデル - LaTeX論文の次の執筆意図を正確に予測

ホーム

Scholawrite Bert Classifier

minnesotanlpによって開発

BERTをファインチューニングした学術執筆意図分類モデルで、LaTeX論文執筆における次の執筆意図を予測するために使用されます

テキスト分類

Transformers

英語オープンソースライセンス:Apache-2.0 #学術執筆意図予測 #LaTeX執筆支援 #BERTファインチューニングモデル

ダウンロード数 28

リリース時間 : 4/25/2025

モデル概要

このモデルはbert-base-uncasedをファインチューニングしたテキスト分類モデルで、学術LaTeX執筆における次の執筆意図を予測するために特別に設計されています。特殊なマーカーで囲まれた'before'テキストを入力として受け取り、15の事前定義されたラベルのいずれかを出力します。

モデル特徴

学術執筆専用

学術LaTeX執筆シナリオに特化して最適化されており、学術執筆特有の意図パターンを理解できます

詳細な意図分類

15種類の異なる執筆意図を識別可能で、学術執筆の多様なニーズをカバーします

特殊マーカー処理

<INPUT>、<BT>などの特殊入力マーカーをサポートし、文脈構造をより良く理解できます

モデル能力

テキスト分類

執筆意図認識

学術執筆分析

使用事例

学術執筆支援

執筆提案システム

現在の執筆内容に基づいて著者の次の意図を予測し、執筆提案を提供します

ScholaWriteテストセットで0.64の加重F1スコアを達成

執筆過程分析

学術著者の執筆パターンと意図転換の法則を分析します

🚀 scholawrite-bert-classifier モデルカード

このモデルは、LaTeX形式の学術論文の執筆において、次の執筆意図を予測するために開発されたものです。学術論文の執筆支援に役立ちます。

🚀 クイックスタート

import os
from dotenv import load_dotenv

import torch
from transformers import BertTokenizer, BertForSequenceClassification, RobertaTokenizer, RobertaForSequenceClassification
from huggingface_hub import login

load_dotenv()
HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
login(token=HUGGINGFACE_TOKEN)

TOTAL_CLASSES = 15

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokenizer.add_tokens("<INPUT>")  # start input
tokenizer.add_tokens("</INPUT>") # end input
tokenizer.add_tokens("<BT>")     # before text
tokenizer.add_tokens("</BT>")    # before text
tokenizer.add_tokens("<PWA>")    # start previous writing action
tokenizer.add_tokens("</PWA>")   # end previous writing action

model = BertForSequenceClassification.from_pretrained('minnesotanlp/scholawrite-bert-classifier', num_labels=TOTAL_CLASSES)

before_text = "sample before text"
text = "<INPUT>" + "<BT>" + before_text + "</BF> " + "</INPUT>"

input = tokenizer(text, return_tensors="pt")
pred = model(input["input_ids"]).logits.argmax(1)
print("class:", pred)

✨ 主な機能

このモデルは、LaTeX形式の学術論文の執筆において、次の執筆意図を予測することができます。
入力として特殊トークンで囲まれた「before」テキストを受け取り、15種類の事前定義されたラベルのうち1つを出力します。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

モデルの詳細

モデルの説明

このモデルは、論文ではBERT - SW - CLFと呼ばれています。Hugging Faceのbert - base - uncasedをベースに、ScholaWriteデータセットのtrain分割を使用してファインチューニングされています。このモデルの唯一の目的は、LaTeX形式の学術論文から次の執筆意図を予測することです。

開発者: *Linghe Wang, *Minhwa Lee, Ross Volkov, Luan Chau, Dongyeop Kang
言語: 英語
ファインチューニング元のモデル: [bert - base - uncased](https://huggingface.co/google - bert/bert - base - uncased)

モデルのソース

リポジトリ: ScholaWrite Github Repository
論文: [More Information Needed]

モデルの用途

直接的な利用

このモデルは、LaTeX論文のドラフトにおける次の執筆意図の予測に使用されます。特殊トークンで囲まれた「before」テキストを入力として受け取り、15種類の事前定義されたラベルのうち1つの次の執筆意図を出力します。

想定外の利用

このモデルは、次の執筆意図の予測のためにのみファインチューニングされており、閉じた環境で推論されます。主な目的は、データセットの有用性を検証することです。学術的な利用に適していますが、本番環境、一般公開、または消費者向けサービスには適していません。また、LaTeX論文のドラフトにおける次の意図予測以外のタスクでこのモデルを使用すると、うまく機能しない可能性があります。

バイアスと制限

このモデルのバイアスと制限は、主にファインチューニングに使用されたデータセット（ScholaWrite）に由来します。

まず、ScholaWriteデータセットは現在、コンピュータサイエンス分野に限定されています。LaTeXは主にコンピュータサイエンスのジャーナルや会議で使用されるため、このデータセットの分野固有の焦点は、モデルの他の科学分野への汎化能力を制限する可能性があります。
第二に、すべての参加者は米国のR1大学の初期キャリアの研究者（例：博士課程学生）であり、これはモデルが専門家の専門的な執筆行動や認知プロセスを学習できないことを意味します。
第三に、データセットは英語の執筆に限定されており、多言語または非英語のコンテキストでの次の執筆意図の予測能力を制限します。

ファインチューニングの詳細

ファインチューニングデータ

このモデルは、minnesotanlp/scholawriteデータセットのtrain分割を使用してファインチューニングされています。これは、学術論文のエンドツーエンドの執筆プロセスのキーストロークログであり、各キーストロークの背後にある認知的な執筆意図が詳細に注釈付けされています。データセットには追加の前処理やフィルタリングは行われていません。

ファインチューニング手順

モデルは、プロンプトのbefore_textセクションを入力として渡し、intentionを正解データとして使用してファインチューニングされました。モデルは、各意図ラベル（1 - 15）に応じて整数を出力します。

ファインチューニングのハイパーパラメータ

ファインチューニング方式: fp32
学習率 2e - 5
デバイスごとのトレーニングバッチサイズ 2
デバイスごとの評価バッチサイズ 8
トレーニングエポック数 10
重み減衰 0.01

マシン仕様

ハードウェア: 2 X Nvidia RTX A6000
使用時間: 3.5時間
コンピュートリージョン: Minnesota

テスト手順

テストデータ

minnesotanlp/scholawrite

評価指標

トレーニングデータとテストデータの両方でクラス不均衡があるため、重み付きF1を使用してパフォーマンスを測定しています。

結果

	BERT	RoBERTa	LLama - 8B - Instruct	GPT - 4o
Base	0.04	0.02	0.12	0.08
+ SW	0.64	0.64	0.13	-

まとめ

上の表は、ベースラインとファインチューニングされたモデルにおける執筆意図の予測に関する重み付きF1スコアを示しています。ScholaWriteでファインチューニングされたすべてのモデルは、ベースラインと比較してパフォーマンスが向上しています。BERTとRoBERTaが最も大きな改善を達成し、LLama - 8B - Instructはファインチューニング後に若干の改善を示しました。これらの結果は、ScholaWriteデータセットが言語モデルを執筆者の意図に合わせる効果を示しています。

🔧 技術詳細

このモデルは、Hugging Faceのbert - base - uncasedをベースに構築されています。ファインチューニングには、ScholaWriteデータセットのtrain分割を使用しています。モデルは、入力として特殊トークンで囲まれた「before」テキストを受け取り、15種類の事前定義されたラベルのうち1つを出力します。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

BibTeX

@misc{wang2025scholawritedatasetendtoendscholarly,
      title={ScholaWrite: A Dataset of End-to-End Scholarly Writing Process},
      author={Linghe Wang and Minhwa Lee and Ross Volkov and Luan Tuyen Chau and Dongyeop Kang},
      year={2025},
      eprint={2502.02904},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.02904},
      }