モデル概要
モデル特徴
モデル能力
使用事例
🚀 DeepReviewer
DeepReviewerは、学術論文の査読に特化した生成型大規模言語モデルです。Phi-4事前学習言語モデルをベースに、多段階推論フレームワークを用いて、学術論文に対する深層的かつ構造化された査読を生成します。
🚀 クイックスタート
DeepReviewerは、transformers
またはvllm
コードライブラリを使用して利用できます。レビューコメントを生成するには、長いコンテキスト(入力に14000トークン、出力に5000トークン)が必要です。十分なGPUメモリがあることを確認してください。以下に推奨構成を示します。
モデル名 | 推奨構成 (bs>=5) | 最小構成 (bs=1) |
---|---|---|
DeepReviewer-7B | 1 x RTX3090/4090/5090 (bf16) | 1 x RTX 4070 (int8) |
DeepReviewer-14B | 1 x A100 (bf16) | 1 x RTX3090/4090/5090 (int8) |
論文テキストの取得
論文の元のLatexバージョンまたはMarkdownバージョンを提供できる場合は、この手順をスキップできます。論文のPDFバージョンしか持っていない場合は、まずMarkdownまたはLatex形式に変換する必要があります。MagicPDFなどのPDFテキスト変換ツールの使用をおすすめします。
vllmを使用する場合
from ai_researcher.deep_reviewer import DeepReviewer
import torch
# Initialize DeepReviewer
reviewer = DeepReviewer(
model_size="14B", # Use "7B" for the smaller model
device="cuda",
tensor_parallel_size=1, # Increase for multi-GPU setup
gpu_memory_utilization=0.95
)
# Load paper content
paper_content = "Your paper content here" # Replace with actual paper content
# Generate reviews in different modes
# Fast Mode for quick overview
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")
# Standard Mode with multiple reviewers
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)
# Parse the review results
for result in standard_review:
print("
--- Meta-Review ---")
print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
print(f"Decision: {result['decision']}")
✨ 主な機能
モデル概要
DeepReviewerは、学術論文の査読用に追加の教師付き学習を行った生成型大規模言語モデルのセットで、7Bと14Bのサイズがあります。両方のモデルは、Phi-4事前学習言語モデルに基づく純粋なテキスト言語モデルです。多段階推論フレームワークを利用して、学術論文に対する深層的かつ構造化された査読を生成します。
査読モード
DeepReviewerは、深さと効率をバランスさせるために3つの査読モードを提供します。
- 高速モード:要約、スコア、要点を含む迅速な査読
- 標準モード:複数の査読者の視点をシミュレートし、検証を行う
- 最良モード:すべての次元にわたる詳細な分析を含む最も包括的な査読
主な目的
- 論文の修正に構造化されたフィードバックを提供することで、科学研究の反復的な自己改善を促進する
- 自動学術評価と査読支援の研究を進める
- 科学研究を改善するための強化学習システムの報酬モデルとして機能する
📦 インストール
本リポジトリに含まれるモデルは、transformers
またはvllm
コードライブラリを使用して利用できます。
💻 使用例
基本的な使用法
from ai_researcher.deep_reviewer import DeepReviewer
import torch
# Initialize DeepReviewer
reviewer = DeepReviewer(
model_size="14B", # Use "7B" for the smaller model
device="cuda",
tensor_parallel_size=1, # Increase for multi-GPU setup
gpu_memory_utilization=0.95
)
# Load paper content
paper_content = "Your paper content here" # Replace with actual paper content
# Generate reviews in different modes
# Fast Mode for quick overview
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")
# Standard Mode with multiple reviewers
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)
# Parse the review results
for result in standard_review:
print("
--- Meta-Review ---")
print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
print(f"Decision: {result['decision']}")
📚 ドキュメント
モデル情報
プロパティ | 詳細 |
---|---|
モデルタイプ | 生成型大規模言語モデル |
事前学習言語モデル | Phi-4 |
モデルサイズ | 7B、14B |
モデル公開日 | 2025年3月 |
モデル知識カットオフ日 | 2025年1月 |
ホームページとデモ | http://ai-researcher.net |
モデル仕様
モデル名 | 事前学習言語モデル | HFリンク |
---|---|---|
DeepReviewer-7B | Qwen/Qwen2.5-7B-Instruct | 🤗 link |
DeepReviewer-14B | microsoft/phi-4 | 🤗 link |
オープンソースライセンス
このリポジトリのコードは、Apache-2.0ライセンスの下でオープンソース化されています。モデルの重みは、DeepReviewerライセンスの下でオープンソース化されており、モデルが誤用されないように追加の内容が含まれています。
モデル性能
ICLR会議論文のテストデータを使用して、さまざまな指標でDeepReviewerを評価しました。以下の表に、他の主要なモデルとの比較を示します。
ICLR 2024
指標 | DeepReviewer-7B | DeepReviewer-14B | CycleReviewer-70B | GPT-o1 | DeepSeek-R1 | Gemini-2.0-Flash-Thinking |
---|---|---|---|---|---|---|
Rating MSE↓ | 1.8262 | 1.3137 | 2.4870 | 4.3414 | 4.1648 | 4.9297 |
Rating MAE↓ | 1.0870 | 0.9102 | 1.2514 | 1.7294 | 1.6526 | 1.8711 |
Decision Accuracy$\uparrow$ | 0.5975 | 0.6406 | 0.6304 | 0.4500 | 0.5248 | 0.5743 |
Decision F1$\uparrow$ | 0.5428 | 0.6307 | 0.5696 | 0.4424 | 0.4988 | 0.5197 |
Rating Spearman$\uparrow$ | 0.2126 | 0.3559 | 0.3356 | 0.2621 | 0.3256 | 0.0745 |
Pairwise Rating Acc$\uparrow$ | 0.5749 | 0.6242 | 0.6160 | 0.5881 | 0.6206 | 0.5343 |
ICLR 2025
指標 | DeepReviewer-7B | DeepReviewer-14B | CycleReviewer-70B | GPT-o1 | DeepSeek-R1 | Gemini-2.0-Flash-Thinking |
---|---|---|---|---|---|---|
Rating MSE↓ | 1.6730 | 1.3410 | 2.4294 | 4.3072 | 4.7719 | 3.9232 |
Rating MAE↓ | 1.0379 | 0.9243 | 1.2128 | 1.7917 | 1.8099 | 1.6470 |
Decision Accuracy$\uparrow$ | 0.6660 | 0.6878 | 0.6782 | 0.4167 | 0.4259 | 0.6139 |
Decision F1$\uparrow$ | 0.5564 | 0.6227 | 0.5737 | 0.4157 | 0.4161 | 0.4808 |
Rating Spearman$\uparrow$ | 0.2973 | 0.4047 | 0.2674 | 0.2991 | 0.3237 | 0.2565 |
Pairwise Rating Acc$\uparrow$ | 0.6038 | 0.6402 | 0.5928 | 0.6318 | 0.6289 | 0.6040 |
DeepReviewerは、パラメータ数が少ないにもかかわらず、ほとんどの指標で他のモデルを大きく上回っています。14Bモデルは、Decision AccuracyとScore MSEで特に強い結果を達成しており、論文の全体的な品質評価における信頼性を示しています。
想定使用目的
想定使用ケース
DeepReviewerモデルは、複数の言語での研究目的に適しています。これには、以下の目的が含まれますが、これらに限定されません。
- 論文の改善:学術論文の品質と明瞭さの向上に役立つ
- 執筆練習:ユーザーが学術執筆スキルを練習し、磨くためのプラットフォームを提供する
- 自己評価ツール:研究者が投稿前に自分の作品を評価できるようにする
- 学習支援:学生や研究者が査読プロセスを理解するのをサポートする
- フィードバックシミュレーション:実際の査読に備えて、模擬査読フィードバックを提供する
- 修正ガイド:学術論文の修正に構造化されたガイダンスを提供する
- 概念検証ツール:研究者が自分のアイデアや仮説を検証するのを助ける
- 報酬モデル:学術執筆を改善するための機械学習システムのコンポーネントとして機能する
- 教育リソース:学術執筆と査読プロセスの教育ツールとして機能する
- 研究アシスタント:文献レビューと研究方法論の改善に役立つ
- 補助ツール:非公式、非公式の設定で人間の査読を補完する
想定外の使用
このモデルを誤用して学術環境に影響を与えることは許可されていません。以下の使用は許可されていません。
- 公式査読:DeepReviewerは、公式の査読には一切使用できません。
- 法的または倫理的判断:研究倫理や法的遵守に関する判断を行うように設計されていません。
- 事実検証:フィードバックを提供できますが、事実チェックや科学的主張の検証の唯一のソースとして使用すべきではありません。
- 剽窃検出:剽窃検出ツールとして使用することはできません。
- 出版決定:論文を出版するかどうかの最終決定に使用することはできません。
- 専門家相談:専門分野での専門家相談の代替品ではありません。
⚠️ 重要提示
ライセンス要件を満たしているか不確かな場合は、詳細を問い合わせるためにお問い合わせください。
倫理的考慮事項
- 学術誠実性:DeepReviewerは研究者が論文の品質を改善するのを支援するように設計されていますが、実際の査読プロセスを置き換えるために使用すべきではありません。このツールを自己改善と学習の補助手段としてのみ使用することを強くおすすめします。
- 公平性:モデルにはバイアスがある可能性があり、特に学際的または新興分野の研究を評価する場合に注意が必要です。ユーザーはこれを認識し、モデルのフィードバックに慎重に対処する必要があります。
- 責任ある使用:このモデルを責任を持って使用することを呼びかけ、契約に従って、誤った査読意見を生成したり、学術評価プロセスを操作したりしないことを要求します。
- 透明性:このモデルによって生成されたコンテンツを公開設定で使用する場合は、学術界の透明性と誠実さを維持するために、DeepReviewerのソースを明確に記載する必要があります。
制限事項
- 知識カットオフ日:モデルの知識は2024年10月でカットオフされているため、この日以降に登場した新しい技術、方法、または研究トレンドの理解が不足している可能性があります。これにより、一部の革新的な研究が過小評価される可能性があります。
- 純粋なテキストの制限:純粋なテキストモデルとして、DeepReviewerは論文中の画像、グラフ、または複雑な数式を直接解析または評価することはできません。これにより、視覚要素に大きく依存する論文の包括的な評価に影響を与える可能性があります。
- 専門分野での深度:モデルはさまざまなドメインで学習されていますが、非常に専門的または最先端のサブ分野では、人間の専門家ほど正確な評価を行えない可能性があります。
- リアルタイム情報の欠如:モデルはリアルタイムの学術データベースまたは最新の公開論文にアクセスできないため、研究の新規性を評価する際にバイアスが生じる可能性があります。
- 学問分野のバイアス:学習データの制限により、モデルは特定の学問分野または研究方法に対する偏好がある可能性があります。ユーザーはこれを認識し、他の意見と組み合わせる必要があります。
- 言語と文化の制限:モデルは、文化的なニュアンスまたは学習分布外の分野固有の用語を含む論文の処理に苦労する可能性があります。
引用
@inproceedings{
weng2025cycleresearcher,
title={CycleResearcher: Improving Automated Research via Automated Review},
author={Yixuan Weng and Minjun Zhu and Guangsheng Bao and Hongbo Zhang and Jindong Wang and Yue Zhang and Linyi Yang},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=bjcsVLoHYs}
}
@misc{zhu2025deepreviewimprovingllmbasedpaper,
title={DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process},
author={Minjun Zhu and Yixuan Weng and Linyi Yang and Yue Zhang},
year={2025},
eprint={2503.08569},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.08569},
}
お問い合わせ
- 問題を提出する
- メール:zhuminjun@westlake.edu.cn
📄 ライセンス
本モデルはDeepReviewerライセンスの下で提供されています。ライセンスにより、これらのモデルを基に作成/学習/配布/複製されたすべてのモデルは、正式な査読作業に使用できません。



