模型简介
模型特点
模型能力
使用案例
🚀 DeepReviewer大语言模型
DeepReviewer是一套经过额外监督训练的生成式大语言模型,专为学术论文评审而设计。它能够基于给定的论文内容自动评估论文质量,提供接近人类水平的评审意见,包括全面分析、优缺点和建议。
🚀 快速开始
本仓库中的模型可以使用transformers
或vllm
代码库进行调用。生成评审意见时,需要较长的上下文(输入14000个标记,输出5000个标记),请确保有足够的GPU内存。以下是推荐的配置:
模型名称 | 推荐配置 (bs>=5) | 最小配置 (bs=1) |
---|---|---|
DeepReviewer-7B | 1 x RTX3090/4090/5090 (bf16) | 1 x RTX 4070 (int8) |
DeepReviewer-14B | 1 x A100 (bf16) | 1 x RTX3090/4090/5090 (int8) |
获取论文文本
如果能提供论文的原始LaTeX版本或Markdown版本,那是最理想的,可跳过此步骤。如果只有论文的PDF版本,则需要先将其转换为Markdown或LaTeX格式,推荐使用MagicPDF等PDF转文本工具。
使用vllm
from ai_researcher.deep_reviewer import DeepReviewer
import torch
# 初始化DeepReviewer
reviewer = DeepReviewer(
model_size="14B", # 较小的模型使用 "7B"
device="cuda",
tensor_parallel_size=1, # 多GPU设置时增加此值
gpu_memory_utilization=0.95
)
# 加载论文内容
paper_content = "Your paper content here" # 替换为实际的论文内容
# 以不同模式生成评审意见
# 快速模式,提供快速概述
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")
# 标准模式,模拟多个评审者视角
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)
# 解析评审结果
for result in standard_review:
print("--- Meta-Review ---")
print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
print(f"Decision: {result['decision']}")
✨ 主要特性
DeepReviewer是基于Phi - 4预训练语言模型的纯文本语言模型,利用多阶段推理框架对学术论文进行深入、结构化的评审。它提供三种评审模式,以平衡深度和效率:
- 快速模式:快速评审,提供总结、评分和关键点。
- 标准模式:模拟多个评审者视角,并进行验证。
- 最佳模式:最全面的评审,对所有维度进行详细分析。
📦 安装指南
文档未提及具体安装命令,故跳过此章节。
💻 使用示例
基础用法
from ai_researcher.deep_reviewer import DeepReviewer
import torch
# 初始化DeepReviewer
reviewer = DeepReviewer(
model_size="14B", # 较小的模型使用 "7B"
device="cuda",
tensor_parallel_size=1, # 多GPU设置时增加此值
gpu_memory_utilization=0.95
)
# 加载论文内容
paper_content = "Your paper content here" # 替换为实际的论文内容
# 以不同模式生成评审意见
# 快速模式,提供快速概述
fast_review = reviewer.evaluate([paper_content], mode="Fast Mode")
# 标准模式,模拟多个评审者视角
standard_review = reviewer.evaluate([paper_content], mode="Standard Mode", reviewer_num=3)
# 解析评审结果
for result in standard_review:
print("--- Meta-Review ---")
print(f"Summary: {result['meta_review'].get('summary', 'N/A')}")
print(f"Rating: {result['meta_review'].get('rating', 'N/A')}")
print(f"Decision: {result['decision']}")
📚 详细文档
模型信息
- 主页与演示:http://ai - researcher.net
- 模型发布日期:2025年3月
- 模型知识截止日期:2025年1月
DeepReviewer是一套经过额外监督训练的生成式大语言模型,有7B和14B两种规模。这两个模型都是基于Phi - 4预训练语言模型的纯文本语言模型,利用多阶段推理框架对学术论文进行深入、结构化的评审。
模型规格
模型名称 | 预训练语言模型 | HF链接 |
---|---|---|
DeepReviewer-7B | Qwen/Qwen2.5 - 7B - Instruct | 🤗 链接 |
DeepReviewer-14B | microsoft/phi - 4 | 🤗 链接 |
开源许可证
本仓库中的代码遵循Apache - 2.0许可证开源。模型权重遵循DeepReviewer许可证开源,该许可证包含额外内容,以确保模型不被滥用。
模型性能
使用ICLR会议论文的测试数据对DeepReviewer进行了多指标评估,与其他领先模型的对比如下:
ICLR 2024
指标 | DeepReviewer - 7B | DeepReviewer - 14B | CycleReviewer - 70B | GPT - o1 | DeepSeek - R1 | Gemini - 2.0 - Flash - Thinking |
---|---|---|---|---|---|---|
评分均方误差↓ | 1.8262 | 1.3137 | 2.4870 | 4.3414 | 4.1648 | 4.9297 |
评分平均绝对误差↓ | 1.0870 | 0.9102 | 1.2514 | 1.7294 | 1.6526 | 1.8711 |
决策准确率$\uparrow$ | 0.5975 | 0.6406 | 0.6304 | 0.4500 | 0.5248 | 0.5743 |
决策F1值$\uparrow$ | 0.5428 | 0.6307 | 0.5696 | 0.4424 | 0.4988 | 0.5197 |
评分斯皮尔曼相关系数$\uparrow$ | 0.2126 | 0.3559 | 0.3356 | 0.2621 | 0.3256 | 0.0745 |
成对评分准确率$\uparrow$ | 0.5749 | 0.6242 | 0.6160 | 0.5881 | 0.6206 | 0.5343 |
ICLR 2025
指标 | DeepReviewer - 7B | DeepReviewer - 14B | CycleReviewer - 70B | GPT - o1 | DeepSeek - R1 | Gemini - 2.0 - Flash - Thinking |
---|---|---|---|---|---|---|
评分均方误差↓ | 1.6730 | 1.3410 | 2.4294 | 4.3072 | 4.7719 | 3.9232 |
评分平均绝对误差↓ | 1.0379 | 0.9243 | 1.2128 | 1.7917 | 1.8099 | 1.6470 |
决策准确率$\uparrow$ | 0.6660 | 0.6878 | 0.6782 | 0.4167 | 0.4259 | 0.6139 |
决策F1值$\uparrow$ | 0.5564 | 0.6227 | 0.5737 | 0.4157 | 0.4161 | 0.4808 |
评分斯皮尔曼相关系数$\uparrow$ | 0.2973 | 0.4047 | 0.2674 | 0.2991 | 0.3237 | 0.2565 |
成对评分准确率$\uparrow$ | 0.6038 | 0.6402 | 0.5928 | 0.6318 | 0.6289 | 0.6040 |
DeepReviewer在大多数指标上显著优于其他模型,尽管其参数数量较少。14B模型在决策准确率和评分均方误差方面取得了特别好的结果,证明了它在整体论文质量评估中的可靠性。
预期用途
预期用例
DeepReviewer模型适用于多语言研究目的,包括但不限于以下目标:
- 论文改进:协助提高学术论文的质量和清晰度。
- 写作练习:为用户提供练习和完善学术写作技巧的平台。
- 自我评估工具:使研究人员在提交论文前能够评估自己的工作。
- 学习辅助:支持学生和研究人员理解同行评审过程。
- 反馈模拟:提供模拟的同行评审反馈,帮助作者为实际评审做好准备。
- 修订指南:为修订学术论文提供结构化指导。
- 概念验证器:帮助研究人员验证他们的想法和假设。
- 奖励模型:作为机器学习系统中提高学术写作的组件。
- 教育资源:作为学术写作和同行评审过程的教学工具。
- 研究助手:协助进行文献综述和完善研究方法。
- 补充工具:在非正式、非官方的环境中补充人工评审。
非预期用途
不允许该模型被滥用以影响学术环境,以下使用情况是不允许的:
- 官方评审:DeepReviewer明确禁止用于任何形式的官方同行评审。
- 法律或伦理决策:不用于对研究伦理或法律合规性做出判断。
- 事实核查:虽然可以提供反馈,但不应作为事实核查或验证科学主张的唯一来源。
- 抄袭检测:不能作为抄袭检测工具。
- 发表决策:不能用于决定论文是否应该发表。
- 专家咨询:不能替代专业领域的专家咨询。
如果不确定是否符合许可证要求,请联系我们进行进一步咨询
🔧 技术细节
文档未提供具体技术实现细节(内容少于50字),故跳过此章节。
📄 许可证
根据许可证规定,所有基于这些模型创建/训练/分发/复制的模型都不能用于任何正式评审工作。本仓库中的代码遵循Apache - 2.0许可证开源。模型权重遵循DeepReviewer许可证开源,该许可证包含额外内容,以确保模型不被滥用。
⚠️ 重要提示
- 学术诚信:尽管DeepReviewer旨在协助研究人员提高论文质量,但不应被用于取代真正的同行评审过程。强烈建议用户仅将此工具用作自我提升和学习的辅助手段。
- 公平性:模型可能存在偏差,尤其是在评估跨学科或新兴领域的研究时。用户应意识到这一点,并谨慎对待模型的反馈。
- 负责任使用:呼吁用户负责任地使用此模型,并要求用户根据协议不使用它来产生虚假的评审意见或操纵学术评估过程。
- 透明度:在任何公开场合使用此模型生成的内容时,应明确注明DeepReviewer来源,以维护学术界的透明度和诚实性。
💡 使用建议
- 知识截止日期:模型的知识截止到2024年10月,因此可能缺乏对该日期之后出现的新技术、方法或研究趋势的理解。这可能导致对一些高度创新的研究评估不足。
- 纯文本限制:作为纯文本模型,DeepReviewer无法直接解析或评估论文中的图像、图表或复杂公式。这可能影响对严重依赖视觉元素的论文的综合评估。
- 专业领域深度:尽管模型在各个领域进行了训练,但在非常专业或前沿的子领域中,其评估可能不如人类专家准确。
- 缺乏实时信息:模型无法访问实时学术数据库或最新发表的论文,这可能导致在评估研究新颖性时出现偏差。
- 学科偏差:由于训练数据的限制,模型可能对某些学科或研究方法有偏好。用户应意识到这一点,并结合其他意见进行参考。
- 语言和文化限制:模型在处理具有文化细微差别或特定领域术语的论文时可能表现不佳。
📮 联系我们
- [提交问题](https://github.com/zhu - minjun/Researcher/issues)
- 邮箱:zhuminjun@westlake.edu.cn
CITE
@inproceedings{
weng2025cycleresearcher,
title={CycleResearcher: Improving Automated Research via Automated Review},
author={Yixuan Weng and Minjun Zhu and Guangsheng Bao and Hongbo Zhang and Jindong Wang and Yue Zhang and Linyi Yang},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=bjcsVLoHYs}
}
@misc{zhu2025deepreviewimprovingllmbasedpaper,
title={DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process},
author={Minjun Zhu and Yixuan Weng and Linyi Yang and Yue Zhang},
year={2025},
eprint={2503.08569},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.08569},
}



