DeepReviewer-7Bオープンソース学术論文査読モデル - 構造化された深度のある査読意見を無料で生成

ホーム

Deepreviewer 7B

WestlakeNLPによって開発

DeepReviewerはQwen2.5-7B-Instructを基に構築された学術論文査読用大規模言語モデルで、構造化された深い査読意見生成機能を提供します

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #学術論文査読 #複数査読者シミュレーション #構造化フィードバック

ダウンロード数 38

リリース時間 : 4/25/2025

モデル概要

このモデルは多段階推論フレームワークを通じて構造化された論文査読意見を生成し、迅速、標準、最適の3つの査読モードをサポートし、学術論文の自己改善と学習を支援することを目的としています

モデル特徴

マルチモード査読

迅速、標準、最適の3つの査読モードを提供し、異なる深さと効率のニーズに対応します

多視点シミュレーション

標準モードと最適モードでは複数の査読者視点をシミュレートし、多様な専門家意見を提供します

構造化出力

要約、評価、キーポイント、詳細分析を含む完全な査読構造を生成します

小規模パラメータ・高性能

7Bパラメータモデルが多くの指標でより大規模なモデルを上回り、高い効率性を示しています

モデル能力

論文品質評価

構造化フィードバック生成

多言語テキスト処理

学術的執筆分析

改善提案提供

使用事例

学術研究

論文自己改善

著者が投稿前にモデルを使用して構造化されたフィードバックを取得し論文を改善します

論文品質と投稿成功率の向上

学術的執筆教育

教育ツールとして学生がピアレビュー基準を理解するのを支援します

学生の学術的執筆能力の向上

研究支援

研究コンセプト検証

研究者がモデルを使用して研究仮説の妥当性を検証します

研究反復プロセスの加速

文献レビュー支援

研究者が文献レビュー部分を完成させるのを支援します

文献分析品質の向上

🚀 DeepReviewer

DeepReviewerは、学術論文の査読に特化した生成型大規模言語モデルです。Phi-4事前学習言語モデルをベースに、多段階推論フレームワークを用いて、学術論文に対する深層的かつ構造化された査読を生成します。

🚀 クイックスタート

DeepReviewerは、transformersまたはvllmコードライブラリを使用して利用できます。レビューコメントを生成するには、長いコンテキスト（入力に14000トークン、出力に5000トークン）が必要です。十分なGPUメモリがあることを確認してください。以下に推奨構成を示します。

モデル名	推奨構成 (bs>=5)	最小構成 (bs=1)
DeepReviewer-7B	1 x RTX3090/4090/5090 (bf16)	1 x RTX 4070 (int8)
DeepReviewer-14B	1 x A100 (bf16)	1 x RTX3090/4090/5090 (int8)

論文テキストの取得

論文の元のLatexバージョンまたはMarkdownバージョンを提供できる場合は、この手順をスキップできます。論文のPDFバージョンしか持っていない場合は、まずMarkdownまたはLatex形式に変換する必要があります。MagicPDFなどのPDFテキスト変換ツールの使用をおすすめします。

vllmを使用する場合

from ai_researcher.deep_reviewer import DeepReviewer
import torch

# Initialize DeepReviewer
reviewer = DeepReviewer(
    model_size="14B",  # Use "7B" for the smaller model
    device="cuda",
    tensor_parallel_size=1,  # Increase for multi-GPU setup
    gpu_memory_utilization=0.95
)

# Load paper content
paper_content = "Your paper content here"  # Replace with actual paper content

# Generate reviews in different modes
# Fast Mode for quick overview
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")

# Standard Mode with multiple reviewers
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)


# Parse the review results
for result in standard_review:
    print("
--- Meta-Review ---")
    print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
    print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
    print(f"Decision: {result['decision']}")

✨ 主な機能

モデル概要

DeepReviewerは、学術論文の査読用に追加の教師付き学習を行った生成型大規模言語モデルのセットで、7Bと14Bのサイズがあります。両方のモデルは、Phi-4事前学習言語モデルに基づく純粋なテキスト言語モデルです。多段階推論フレームワークを利用して、学術論文に対する深層的かつ構造化された査読を生成します。

査読モード

DeepReviewerは、深さと効率をバランスさせるために3つの査読モードを提供します。

高速モード：要約、スコア、要点を含む迅速な査読
標準モード：複数の査読者の視点をシミュレートし、検証を行う
最良モード：すべての次元にわたる詳細な分析を含む最も包括的な査読

主な目的

論文の修正に構造化されたフィードバックを提供することで、科学研究の反復的な自己改善を促進する
自動学術評価と査読支援の研究を進める
科学研究を改善するための強化学習システムの報酬モデルとして機能する

📦 インストール

本リポジトリに含まれるモデルは、transformersまたはvllmコードライブラリを使用して利用できます。

💻 使用例

基本的な使用法

from ai_researcher.deep_reviewer import DeepReviewer
import torch

# Initialize DeepReviewer
reviewer = DeepReviewer(
    model_size="14B",  # Use "7B" for the smaller model
    device="cuda",
    tensor_parallel_size=1,  # Increase for multi-GPU setup
    gpu_memory_utilization=0.95
)

# Load paper content
paper_content = "Your paper content here"  # Replace with actual paper content

# Generate reviews in different modes
# Fast Mode for quick overview
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")

# Standard Mode with multiple reviewers
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)


# Parse the review results
for result in standard_review:
    print("
--- Meta-Review ---")
    print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
    print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
    print(f"Decision: {result['decision']}")

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	生成型大規模言語モデル
事前学習言語モデル	Phi-4
モデルサイズ	7B、14B
モデル公開日	2025年3月
モデル知識カットオフ日	2025年1月
ホームページとデモ	http://ai-researcher.net

モデル仕様

モデル名	事前学習言語モデル	HFリンク
DeepReviewer-7B	Qwen/Qwen2.5-7B-Instruct	🤗 link
DeepReviewer-14B	microsoft/phi-4	🤗 link

オープンソースライセンス

このリポジトリのコードは、Apache-2.0ライセンスの下でオープンソース化されています。モデルの重みは、DeepReviewerライセンスの下でオープンソース化されており、モデルが誤用されないように追加の内容が含まれています。

モデル性能

ICLR会議論文のテストデータを使用して、さまざまな指標でDeepReviewerを評価しました。以下の表に、他の主要なモデルとの比較を示します。

ICLR 2024

指標	DeepReviewer-7B	DeepReviewer-14B	CycleReviewer-70B	GPT-o1	DeepSeek-R1	Gemini-2.0-Flash-Thinking
Rating MSE↓	1.8262	1.3137	2.4870	4.3414	4.1648	4.9297
Rating MAE↓	1.0870	0.9102	1.2514	1.7294	1.6526	1.8711
Decision Accuracy$\uparrow$	0.5975	0.6406	0.6304	0.4500	0.5248	0.5743
Decision F1$\uparrow$	0.5428	0.6307	0.5696	0.4424	0.4988	0.5197
Rating Spearman$\uparrow$	0.2126	0.3559	0.3356	0.2621	0.3256	0.0745
Pairwise Rating Acc$\uparrow$	0.5749	0.6242	0.6160	0.5881	0.6206	0.5343

ICLR 2025

指標	DeepReviewer-7B	DeepReviewer-14B	CycleReviewer-70B	GPT-o1	DeepSeek-R1	Gemini-2.0-Flash-Thinking
Rating MSE↓	1.6730	1.3410	2.4294	4.3072	4.7719	3.9232
Rating MAE↓	1.0379	0.9243	1.2128	1.7917	1.8099	1.6470
Decision Accuracy$\uparrow$	0.6660	0.6878	0.6782	0.4167	0.4259	0.6139
Decision F1$\uparrow$	0.5564	0.6227	0.5737	0.4157	0.4161	0.4808
Rating Spearman$\uparrow$	0.2973	0.4047	0.2674	0.2991	0.3237	0.2565
Pairwise Rating Acc$\uparrow$	0.6038	0.6402	0.5928	0.6318	0.6289	0.6040

DeepReviewerは、パラメータ数が少ないにもかかわらず、ほとんどの指標で他のモデルを大きく上回っています。14Bモデルは、Decision AccuracyとScore MSEで特に強い結果を達成しており、論文の全体的な品質評価における信頼性を示しています。

想定使用目的

想定使用ケース

DeepReviewerモデルは、複数の言語での研究目的に適しています。これには、以下の目的が含まれますが、これらに限定されません。

論文の改善：学術論文の品質と明瞭さの向上に役立つ
執筆練習：ユーザーが学術執筆スキルを練習し、磨くためのプラットフォームを提供する
自己評価ツール：研究者が投稿前に自分の作品を評価できるようにする
学習支援：学生や研究者が査読プロセスを理解するのをサポートする
フィードバックシミュレーション：実際の査読に備えて、模擬査読フィードバックを提供する
修正ガイド：学術論文の修正に構造化されたガイダンスを提供する
概念検証ツール：研究者が自分のアイデアや仮説を検証するのを助ける
報酬モデル：学術執筆を改善するための機械学習システムのコンポーネントとして機能する
教育リソース：学術執筆と査読プロセスの教育ツールとして機能する
研究アシスタント：文献レビューと研究方法論の改善に役立つ
補助ツール：非公式、非公式の設定で人間の査読を補完する

想定外の使用

このモデルを誤用して学術環境に影響を与えることは許可されていません。以下の使用は許可されていません。

公式査読：DeepReviewerは、公式の査読には一切使用できません。
法的または倫理的判断：研究倫理や法的遵守に関する判断を行うように設計されていません。
事実検証：フィードバックを提供できますが、事実チェックや科学的主張の検証の唯一のソースとして使用すべきではありません。
剽窃検出：剽窃検出ツールとして使用することはできません。
出版決定：論文を出版するかどうかの最終決定に使用することはできません。
専門家相談：専門分野での専門家相談の代替品ではありません。

⚠️ 重要提示

ライセンス要件を満たしているか不確かな場合は、詳細を問い合わせるためにお問い合わせください。

倫理的考慮事項

学術誠実性：DeepReviewerは研究者が論文の品質を改善するのを支援するように設計されていますが、実際の査読プロセスを置き換えるために使用すべきではありません。このツールを自己改善と学習の補助手段としてのみ使用することを強くおすすめします。
公平性：モデルにはバイアスがある可能性があり、特に学際的または新興分野の研究を評価する場合に注意が必要です。ユーザーはこれを認識し、モデルのフィードバックに慎重に対処する必要があります。
責任ある使用：このモデルを責任を持って使用することを呼びかけ、契約に従って、誤った査読意見を生成したり、学術評価プロセスを操作したりしないことを要求します。
透明性：このモデルによって生成されたコンテンツを公開設定で使用する場合は、学術界の透明性と誠実さを維持するために、DeepReviewerのソースを明確に記載する必要があります。

制限事項

知識カットオフ日：モデルの知識は2024年10月でカットオフされているため、この日以降に登場した新しい技術、方法、または研究トレンドの理解が不足している可能性があります。これにより、一部の革新的な研究が過小評価される可能性があります。
純粋なテキストの制限：純粋なテキストモデルとして、DeepReviewerは論文中の画像、グラフ、または複雑な数式を直接解析または評価することはできません。これにより、視覚要素に大きく依存する論文の包括的な評価に影響を与える可能性があります。
専門分野での深度：モデルはさまざまなドメインで学習されていますが、非常に専門的または最先端のサブ分野では、人間の専門家ほど正確な評価を行えない可能性があります。
リアルタイム情報の欠如：モデルはリアルタイムの学術データベースまたは最新の公開論文にアクセスできないため、研究の新規性を評価する際にバイアスが生じる可能性があります。
学問分野のバイアス：学習データの制限により、モデルは特定の学問分野または研究方法に対する偏好がある可能性があります。ユーザーはこれを認識し、他の意見と組み合わせる必要があります。
言語と文化の制限：モデルは、文化的なニュアンスまたは学習分布外の分野固有の用語を含む論文の処理に苦労する可能性があります。

引用

@inproceedings{
weng2025cycleresearcher,
title={CycleResearcher: Improving Automated Research via Automated Review},
author={Yixuan Weng and Minjun Zhu and Guangsheng Bao and Hongbo Zhang and Jindong Wang and Yue Zhang and Linyi Yang},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=bjcsVLoHYs}
}

@misc{zhu2025deepreviewimprovingllmbasedpaper,
      title={DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process}, 
      author={Minjun Zhu and Yixuan Weng and Linyi Yang and Yue Zhang},
      year={2025},
      eprint={2503.08569},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.08569}, 
}