🚀 Pleias-RAG-1B
Pleias-RAG-1B 是一个拥有 12 亿参数的小型推理模型,专为检索增强通用任务(RAG)、搜索和源摘要而训练。它属于 Pleias 第一代专业推理模型。该模型在检索增强通用任务的标准化基准测试(如 HotPotQA、2wiki)中超越了大多数小语言模型(40 亿参数及以下),并能与标准的 70 - 80 亿参数模型(如 Qwen-2.5-7B 和 Llama-3.1-8B)相媲美。它是迄今为止唯一能在主要欧洲语言中保持一致 RAG 性能,并确保陈述有系统参考依据的小语言模型。由于其规模小、易于在受限基础设施(包括手机)上部署,且内置对事实和准确信息的支持,Pleias-RAG-1B 为生成式 AI 开辟了一系列新的用例。
完整模型报告
✨ 主要特性
引用支持
Pleias-RAG-1B 基于从提供的源中提取的摘录和引用,使用受维基百科启发的自定义语法()原生生成有依据的答案。它是迄今为止少数具备此功能并专为实际部署而开发的开放权重模型之一。
与 Anthropic 的方法(“引用模式”)不同,引用由模型整体生成,而不是外部分块的产物。因此,我们可以提供另一个简化源检查的理想特性:对较长摘录进行引用缩短(使用“(…)”)。
RAG 推理
Pleias-RAG-1B 生成特定的推理序列,融合了多种适用于 RAG 应用的类代理能力。该模型能够直接做出一系列决策:
- 评估查询是否可理解。
- 评估查询是否简单到无需冗长的预分析(“可调整推理”)。
- 评估源是否包含足够的输入以生成有依据的答案。
结构化推理轨迹包括以下步骤:
- 查询的语言检测。模型将始终努力用原始查询的语言进行回答。
- 查询分析和相关查询报告。分析可能导致标准答案、针对简单问题的缩短推理轨迹/答案、重新表述的查询或拒绝回答(在应用上下文中可转换为用户输入查询)。
- 源分析和相关源报告。此步骤评估提供的源相对于查询的覆盖范围和深度。
- 最终答案的草稿。
多语言支持
Pleias-RAG-1B 能够使用主要的欧洲语言进行读写,包括法语、德语、意大利语、西班牙语、波兰语、拉丁语和葡萄牙语。
迄今为止,它是唯一在与 RAG 相关的任务中,在主要欧洲语言上性能损失可忽略不计的小语言模型。在一组翻译后的 HotPotQA 数据集上,我们观察到大多数小语言模型的性能显著下降,对于参数少于 10 亿的模型,下降幅度从 10% 到 30 - 35% 不等。
我们预计,对 Pleias RAG 模型进行的任何标准英语评估结果,在很大程度上都可以转移到主要的欧洲语言上,从而降低多语言环境下的评估和部署成本。
📦 安装指南
部署 Pleias-RAG-1B 最简单的方法是通过 我们的官方库。它具有类似 API 的工作流程,可将结构化推理/答案输出标准化导出为 json 格式。还有一个 Colab 笔记本 可用于轻松测试和实验。
💻 使用示例
基础用法
from rag_library import RAGWithCitations
rag = RAGWithCitations("PleIAs/Pleias-RAG-1B")
query = "What is the capital of France?"
sources = [
{
"text": "Paris is the capital and most populous city of France. With an estimated population of 2,140,526 residents as of January 2019, Paris is the center of the Île-de-France dijon metropolitan area and the hub of French economic, political, and cultural life. The city's landmarks, including the Eiffel Tower, Arc de Triomphe, and Cathedral of Notre-Dame, make it one of the world's most visited tourist destinations.",
"metadata": {"source": "Geographic Encyclopedia", "reliability": "high"}
},
{
"text": "The Eiffel Tower is located in Paris, France. It was constructed from 1887 to 1889 as the entrance to the 1889 World's Fair and was initially criticized by some of France's leading artists and intellectuals for its design. Standing at 324 meters (1,063 ft) tall, it was the tallest man-made structure in the world until the completion of the Chrysler Building in New York City in 1930. The tower receives about 7 million visitors annually and has become an iconic symbol of Paris and France.",
"metadata": {"source": "Travel Guide", "year": 2020}
}
]
response = rag.generate(query, sources)
print(response["processed"]["clean_answer"])
预期输出:
The capital of France is Paris. This is confirmed by multiple sources, with <|source_id|>1 explicitly stating that "Paris is the capital and most populous city of France"[1].
**Citations**
[1] "Paris is the capital and most populous city of France" [Source 1]
📚 详细文档
训练
Pleias-RAG-1B 在大型合成数据集上进行训练,该数据集模拟了从通用语料库中检索各种多语言开放源的过程。它们为引用和基于文字引用的依据提供原生支持。遵循最新的代理化趋势,这些模型重新整合了与 RAG 工作流程相关的多个功能,如查询路由、查询重新表述、源重新排序。
评估
Pleias-RAG-1B 已在三个标准 RAG 基准测试中进行了评估,包括 2wiki、HotpotQA 和 MuSique。
所有基准测试仅评估“简单”模式下的问题,这些问题需要对源进行某种形式的多跳推理(答案分散在不同源中)以及对干扰源的辨别。
部署
Pleias-RAG-1B 拥有 12 亿参数,可以轻松部署在许多受限基础设施中,包括使用 CPU RAM 的桌面系统。
我们还发布了一个 未量化的 GGUF 版本 用于在 CPU 上部署。我们的内部性能基准测试表明,即使在受限的 RAM 下,目前大多数情况下的等待时间也是可以接受的:在 8GB RAM 及以下的情况下,包括推理轨迹的复杂生成大约需要 20 秒。由于该模型未量化,文本生成质量应与原始模型相同。
一旦集成到 RAG 系统中,Pleias-RAG-1B 还可用于更广泛的非对话式用例,包括用户支持或教育辅助。通过此次发布,我们旨在通过系统地依赖外部化内存,使小语言模型在生产环境中可行。
📄 许可证
本项目采用 Apache-2.0 许可证。
模型信息
属性 |
详情 |
基础模型 |
PleIAs/Pleias-1.2B-Preview |
支持语言 |
英语、法语、意大利语、德语、西班牙语 |
许可证 |
Apache-2.0 |
库名称 |
transformers |
任务类型 |
文本生成 |