模型概述
模型特點
模型能力
使用案例
🚀 DeepReviewer大語言模型
DeepReviewer是一套經過額外監督訓練的生成式大語言模型,專為學術論文評審而設計。它能夠基於給定的論文內容自動評估論文質量,提供接近人類水平的評審意見,包括全面分析、優缺點和建議。
🚀 快速開始
本倉庫中的模型可以使用transformers
或vllm
代碼庫進行調用。生成評審意見時,需要較長的上下文(輸入14000個標記,輸出5000個標記),請確保有足夠的GPU內存。以下是推薦的配置:
模型名稱 | 推薦配置 (bs>=5) | 最小配置 (bs=1) |
---|---|---|
DeepReviewer-7B | 1 x RTX3090/4090/5090 (bf16) | 1 x RTX 4070 (int8) |
DeepReviewer-14B | 1 x A100 (bf16) | 1 x RTX3090/4090/5090 (int8) |
獲取論文文本
如果能提供論文的原始LaTeX版本或Markdown版本,那是最理想的,可跳過此步驟。如果只有論文的PDF版本,則需要先將其轉換為Markdown或LaTeX格式,推薦使用MagicPDF等PDF轉文本工具。
使用vllm
from ai_researcher.deep_reviewer import DeepReviewer
import torch
# 初始化DeepReviewer
reviewer = DeepReviewer(
model_size="14B", # 較小的模型使用 "7B"
device="cuda",
tensor_parallel_size=1, # 多GPU設置時增加此值
gpu_memory_utilization=0.95
)
# 加載論文內容
paper_content = "Your paper content here" # 替換為實際的論文內容
# 以不同模式生成評審意見
# 快速模式,提供快速概述
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")
# 標準模式,模擬多個評審者視角
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)
# 解析評審結果
for result in standard_review:
print("--- Meta-Review ---")
print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
print(f"Decision: {result['decision']}")
✨ 主要特性
DeepReviewer是基於Phi - 4預訓練語言模型的純文本語言模型,利用多階段推理框架對學術論文進行深入、結構化的評審。它提供三種評審模式,以平衡深度和效率:
- 快速模式:快速評審,提供總結、評分和關鍵點。
- 標準模式:模擬多個評審者視角,並進行驗證。
- 最佳模式:最全面的評審,對所有維度進行詳細分析。
📦 安裝指南
文檔未提及具體安裝命令,故跳過此章節。
💻 使用示例
基礎用法
from ai_researcher.deep_reviewer import DeepReviewer
import torch
# 初始化DeepReviewer
reviewer = DeepReviewer(
model_size="14B", # 較小的模型使用 "7B"
device="cuda",
tensor_parallel_size=1, # 多GPU設置時增加此值
gpu_memory_utilization=0.95
)
# 加載論文內容
paper_content = "Your paper content here" # 替換為實際的論文內容
# 以不同模式生成評審意見
# 快速模式,提供快速概述
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")
# 標準模式,模擬多個評審者視角
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)
# 解析評審結果
for result in standard_review:
print("--- Meta-Review ---")
print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
print(f"Decision: {result['decision']}")
📚 詳細文檔
模型信息
- 主頁與演示:http://ai - researcher.net
- 模型發佈日期:2025年3月
- 模型知識截止日期:2025年1月
DeepReviewer是一套經過額外監督訓練的生成式大語言模型,有7B和14B兩種規模。這兩個模型都是基於Phi - 4預訓練語言模型的純文本語言模型,利用多階段推理框架對學術論文進行深入、結構化的評審。
模型規格
模型名稱 | 預訓練語言模型 | HF鏈接 |
---|---|---|
DeepReviewer-7B | Qwen/Qwen2.5 - 7B - Instruct | 🤗 鏈接 |
DeepReviewer-14B | microsoft/phi - 4 | 🤗 鏈接 |
開源許可證
本倉庫中的代碼遵循Apache - 2.0許可證開源。模型權重遵循DeepReviewer許可證開源,該許可證包含額外內容,以確保模型不被濫用。
模型性能
使用ICLR會議論文的測試數據對DeepReviewer進行了多指標評估,與其他領先模型的對比如下:
ICLR 2024
指標 | DeepReviewer - 7B | DeepReviewer - 14B | CycleReviewer - 70B | GPT - o1 | DeepSeek - R1 | Gemini - 2.0 - Flash - Thinking |
---|---|---|---|---|---|---|
評分均方誤差↓ | 1.8262 | 1.3137 | 2.4870 | 4.3414 | 4.1648 | 4.9297 |
評分平均絕對誤差↓ | 1.0870 | 0.9102 | 1.2514 | 1.7294 | 1.6526 | 1.8711 |
決策準確率$\uparrow$ | 0.5975 | 0.6406 | 0.6304 | 0.4500 | 0.5248 | 0.5743 |
決策F1值$\uparrow$ | 0.5428 | 0.6307 | 0.5696 | 0.4424 | 0.4988 | 0.5197 |
評分斯皮爾曼相關係數$\uparrow$ | 0.2126 | 0.3559 | 0.3356 | 0.2621 | 0.3256 | 0.0745 |
成對評分準確率$\uparrow$ | 0.5749 | 0.6242 | 0.6160 | 0.5881 | 0.6206 | 0.5343 |
ICLR 2025
指標 | DeepReviewer - 7B | DeepReviewer - 14B | CycleReviewer - 70B | GPT - o1 | DeepSeek - R1 | Gemini - 2.0 - Flash - Thinking |
---|---|---|---|---|---|---|
評分均方誤差↓ | 1.6730 | 1.3410 | 2.4294 | 4.3072 | 4.7719 | 3.9232 |
評分平均絕對誤差↓ | 1.0379 | 0.9243 | 1.2128 | 1.7917 | 1.8099 | 1.6470 |
決策準確率$\uparrow$ | 0.6660 | 0.6878 | 0.6782 | 0.4167 | 0.4259 | 0.6139 |
決策F1值$\uparrow$ | 0.5564 | 0.6227 | 0.5737 | 0.4157 | 0.4161 | 0.4808 |
評分斯皮爾曼相關係數$\uparrow$ | 0.2973 | 0.4047 | 0.2674 | 0.2991 | 0.3237 | 0.2565 |
成對評分準確率$\uparrow$ | 0.6038 | 0.6402 | 0.5928 | 0.6318 | 0.6289 | 0.6040 |
DeepReviewer在大多數指標上顯著優於其他模型,儘管其參數數量較少。14B模型在決策準確率和評分均方誤差方面取得了特別好的結果,證明了它在整體論文質量評估中的可靠性。
預期用途
預期用例
DeepReviewer模型適用於多語言研究目的,包括但不限於以下目標:
- 論文改進:協助提高學術論文的質量和清晰度。
- 寫作練習:為用戶提供練習和完善學術寫作技巧的平臺。
- 自我評估工具:使研究人員在提交論文前能夠評估自己的工作。
- 學習輔助:支持學生和研究人員理解同行評審過程。
- 反饋模擬:提供模擬的同行評審反饋,幫助作者為實際評審做好準備。
- 修訂指南:為修訂學術論文提供結構化指導。
- 概念驗證器:幫助研究人員驗證他們的想法和假設。
- 獎勵模型:作為機器學習系統中提高學術寫作的組件。
- 教育資源:作為學術寫作和同行評審過程的教學工具。
- 研究助手:協助進行文獻綜述和完善研究方法。
- 補充工具:在非正式、非官方的環境中補充人工評審。
非預期用途
不允許該模型被濫用以影響學術環境,以下使用情況是不允許的:
- 官方評審:DeepReviewer明確禁止用於任何形式的官方同行評審。
- 法律或倫理決策:不用於對研究倫理或法律合規性做出判斷。
- 事實核查:雖然可以提供反饋,但不應作為事實核查或驗證科學主張的唯一來源。
- 抄襲檢測:不能作為抄襲檢測工具。
- 發表決策:不能用於決定論文是否應該發表。
- 專家諮詢:不能替代專業領域的專家諮詢。
如果不確定是否符合許可證要求,請聯繫我們進行進一步諮詢
🔧 技術細節
文檔未提供具體技術實現細節(內容少於50字),故跳過此章節。
📄 許可證
根據許可證規定,所有基於這些模型創建/訓練/分發/複製的模型都不能用於任何正式評審工作。本倉庫中的代碼遵循Apache - 2.0許可證開源。模型權重遵循DeepReviewer許可證開源,該許可證包含額外內容,以確保模型不被濫用。
⚠️ 重要提示
- 學術誠信:儘管DeepReviewer旨在協助研究人員提高論文質量,但不應被用於取代真正的同行評審過程。強烈建議用戶僅將此工具用作自我提升和學習的輔助手段。
- 公平性:模型可能存在偏差,尤其是在評估跨學科或新興領域的研究時。用戶應意識到這一點,並謹慎對待模型的反饋。
- 負責任使用:呼籲用戶負責任地使用此模型,並要求用戶根據協議不使用它來產生虛假的評審意見或操縱學術評估過程。
- 透明度:在任何公開場合使用此模型生成的內容時,應明確註明DeepReviewer來源,以維護學術界的透明度和誠實性。
💡 使用建議
- 知識截止日期:模型的知識截止到2024年10月,因此可能缺乏對該日期之後出現的新技術、方法或研究趨勢的理解。這可能導致對一些高度創新的研究評估不足。
- 純文本限制:作為純文本模型,DeepReviewer無法直接解析或評估論文中的圖像、圖表或複雜公式。這可能影響對嚴重依賴視覺元素的論文的綜合評估。
- 專業領域深度:儘管模型在各個領域進行了訓練,但在非常專業或前沿的子領域中,其評估可能不如人類專家準確。
- 缺乏即時信息:模型無法訪問即時學術數據庫或最新發表的論文,這可能導致在評估研究新穎性時出現偏差。
- 學科偏差:由於訓練數據的限制,模型可能對某些學科或研究方法有偏好。用戶應意識到這一點,並結合其他意見進行參考。
- 語言和文化限制:模型在處理具有文化細微差別或特定領域術語的論文時可能表現不佳。
📮 聯繫我們
- [提交問題](https://github.com/zhu - minjun/Researcher/issues)
- 郵箱:zhuminjun@westlake.edu.cn
CITE
@inproceedings{
weng2025cycleresearcher,
title={CycleResearcher: Improving Automated Research via Automated Review},
author={Yixuan Weng and Minjun Zhu and Guangsheng Bao and Hongbo Zhang and Jindong Wang and Yue Zhang and Linyi Yang},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=bjcsVLoHYs}
}
@misc{zhu2025deepreviewimprovingllmbasedpaper,
title={DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process},
author={Minjun Zhu and Yixuan Weng and Linyi Yang and Yue Zhang},
year={2025},
eprint={2503.08569},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.08569},
}



