🚀 Pleias-RAG-1B
Pleias-RAG-1B 是一個擁有 12 億參數的小型推理模型,專為檢索增強通用任務(RAG)、搜索和源摘要而訓練。它屬於 Pleias 第一代專業推理模型。該模型在檢索增強通用任務的標準化基準測試(如 HotPotQA、2wiki)中超越了大多數小語言模型(40 億參數及以下),並能與標準的 70 - 80 億參數模型(如 Qwen-2.5-7B 和 Llama-3.1-8B)相媲美。它是迄今為止唯一能在主要歐洲語言中保持一致 RAG 性能,並確保陳述有系統參考依據的小語言模型。由於其規模小、易於在受限基礎設施(包括手機)上部署,且內置對事實和準確信息的支持,Pleias-RAG-1B 為生成式 AI 開闢了一系列新的用例。
完整模型報告
✨ 主要特性
引用支持
Pleias-RAG-1B 基於從提供的源中提取的摘錄和引用,使用受維基百科啟發的自定義語法()原生生成有依據的答案。它是迄今為止少數具備此功能並專為實際部署而開發的開放權重模型之一。
與 Anthropic 的方法(“引用模式”)不同,引用由模型整體生成,而不是外部分塊的產物。因此,我們可以提供另一個簡化源檢查的理想特性:對較長摘錄進行引用縮短(使用“(…)”)。
RAG 推理
Pleias-RAG-1B 生成特定的推理序列,融合了多種適用於 RAG 應用的類代理能力。該模型能夠直接做出一系列決策:
- 評估查詢是否可理解。
- 評估查詢是否簡單到無需冗長的預分析(“可調整推理”)。
- 評估源是否包含足夠的輸入以生成有依據的答案。
結構化推理軌跡包括以下步驟:
- 查詢的語言檢測。模型將始終努力用原始查詢的語言進行回答。
- 查詢分析和相關查詢報告。分析可能導致標準答案、針對簡單問題的縮短推理軌跡/答案、重新表述的查詢或拒絕回答(在應用上下文中可轉換為用戶輸入查詢)。
- 源分析和相關源報告。此步驟評估提供的源相對於查詢的覆蓋範圍和深度。
- 最終答案的草稿。
多語言支持
Pleias-RAG-1B 能夠使用主要的歐洲語言進行讀寫,包括法語、德語、意大利語、西班牙語、波蘭語、拉丁語和葡萄牙語。
迄今為止,它是唯一在與 RAG 相關的任務中,在主要歐洲語言上性能損失可忽略不計的小語言模型。在一組翻譯後的 HotPotQA 數據集上,我們觀察到大多數小語言模型的性能顯著下降,對於參數少於 10 億的模型,下降幅度從 10% 到 30 - 35% 不等。
我們預計,對 Pleias RAG 模型進行的任何標準英語評估結果,在很大程度上都可以轉移到主要的歐洲語言上,從而降低多語言環境下的評估和部署成本。
📦 安裝指南
部署 Pleias-RAG-1B 最簡單的方法是通過 我們的官方庫。它具有類似 API 的工作流程,可將結構化推理/答案輸出標準化導出為 json 格式。還有一個 Colab 筆記本 可用於輕鬆測試和實驗。
💻 使用示例
基礎用法
from rag_library import RAGWithCitations
rag = RAGWithCitations("PleIAs/Pleias-RAG-1B")
query = "What is the capital of France?"
sources = [
{
"text": "Paris is the capital and most populous city of France. With an estimated population of 2,140,526 residents as of January 2019, Paris is the center of the Île-de-France dijon metropolitan area and the hub of French economic, political, and cultural life. The city's landmarks, including the Eiffel Tower, Arc de Triomphe, and Cathedral of Notre-Dame, make it one of the world's most visited tourist destinations.",
"metadata": {"source": "Geographic Encyclopedia", "reliability": "high"}
},
{
"text": "The Eiffel Tower is located in Paris, France. It was constructed from 1887 to 1889 as the entrance to the 1889 World's Fair and was initially criticized by some of France's leading artists and intellectuals for its design. Standing at 324 meters (1,063 ft) tall, it was the tallest man-made structure in the world until the completion of the Chrysler Building in New York City in 1930. The tower receives about 7 million visitors annually and has become an iconic symbol of Paris and France.",
"metadata": {"source": "Travel Guide", "year": 2020}
}
]
response = rag.generate(query, sources)
print(response["processed"]["clean_answer"])
預期輸出:
The capital of France is Paris. This is confirmed by multiple sources, with <|source_id|>1 explicitly stating that "Paris is the capital and most populous city of France"[1].
**Citations**
[1] "Paris is the capital and most populous city of France" [Source 1]
📚 詳細文檔
訓練
Pleias-RAG-1B 在大型合成數據集上進行訓練,該數據集模擬了從通用語料庫中檢索各種多語言開放源的過程。它們為引用和基於文字引用的依據提供原生支持。遵循最新的代理化趨勢,這些模型重新整合了與 RAG 工作流程相關的多個功能,如查詢路由、查詢重新表述、源重新排序。
評估
Pleias-RAG-1B 已在三個標準 RAG 基準測試中進行了評估,包括 2wiki、HotpotQA 和 MuSique。
所有基準測試僅評估“簡單”模式下的問題,這些問題需要對源進行某種形式的多跳推理(答案分散在不同源中)以及對干擾源的辨別。
部署
Pleias-RAG-1B 擁有 12 億參數,可以輕鬆部署在許多受限基礎設施中,包括使用 CPU RAM 的桌面系統。
我們還發布了一個 未量化的 GGUF 版本 用於在 CPU 上部署。我們的內部性能基準測試表明,即使在受限的 RAM 下,目前大多數情況下的等待時間也是可以接受的:在 8GB RAM 及以下的情況下,包括推理軌跡的複雜生成大約需要 20 秒。由於該模型未量化,文本生成質量應與原始模型相同。
一旦集成到 RAG 系統中,Pleias-RAG-1B 還可用於更廣泛的非對話式用例,包括用戶支持或教育輔助。通過此次發佈,我們旨在通過系統地依賴外部化內存,使小語言模型在生產環境中可行。
📄 許可證
本項目採用 Apache-2.0 許可證。
模型信息
屬性 |
詳情 |
基礎模型 |
PleIAs/Pleias-1.2B-Preview |
支持語言 |
英語、法語、意大利語、德語、西班牙語 |
許可證 |
Apache-2.0 |
庫名稱 |
transformers |
任務類型 |
文本生成 |