guillaumetell-7b開源法語大語言模型 - 支持可溯源解釋的檢索增強生成

首頁

Guillaumetell 7b

由AgentPublic開發

基於Mistral Open-Hermes 2.5優化的法語大語言模型，專為具有來源追溯和可解釋性的檢索增強生成(RAG)設計

大型語言模型

Transformers

法語開源協議:Apache-2.0 #法語行政問答 #溯源引用生成 #檢索增強生成

下載量 73

發布時間 : 1/17/2024

模型概述

該模型旨在提升基於法國行政來源文本生成的可驗證性，能生成帶有特殊引用參數的可溯源性回答

模型特點

行政信息溯源

生成回答時可自動關聯行政信息來源並標註引用

RAG優化

專為檢索增強生成任務設計，提升回答準確性

行政領域專注

專注於法國行政手續相關問題的解答

模型能力

法語文本生成

行政信息檢索

引用標註

問答系統

使用案例

公共服務

法國服務中心顧問輔助

幫助公共服務顧問快速查詢行政手續信息

生成帶來源引用的準確回答

行政手續諮詢

解答公眾關於債務處理等行政程序問題

提供分步驟的行政指導

🚀 模型卡片：威廉·退爾

“威廉·退爾”是一款基於Mistral Open - Hermes 2.5的法語大語言模型（LLM），針對檢索增強生成（RAG）進行了優化，具備來源可追溯性和可解釋性。

🚀 快速開始

“威廉·退爾”模型專為法國行政信息檢索而設計，能夠依據給定的問題和相關來源生成有出處的答案。以下將詳細介紹其使用方法、適用場景、模型細節等內容。

✨ 主要特性

RAG優化：專為檢索增強生成（RAG）設計，可有效利用外部數據源生成更準確的答案。
來源可追溯：生成的答案帶有來源標識，方便用戶追溯信息出處。
法語適配：專門針對法語進行優化，僅以法語生成答案。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

示例問題

問題：在過度負債的情況下，恢復程序的步驟有哪些？

參考來源

10965c7bc7a8e185_0 : 過度負債：通過司法清算實現個人恢復。恢復程序旨在消除過度負債者的債務…

4c4511d1c0e6dc4c_0 : 過度負債：無需司法清算的個人恢復。個人恢復程序旨在消除債務

b8d3342e4ac89fe9_0 : 在過度負債程序期間可以提出申請嗎？從提交過度負債檔案開始。暫停期限…

n28e7fcf81deee0ff_0 : 過度負債：通過司法清算實現個人恢復。條件。相關人員。啟動通過司法清算實現個人恢復的程序…

568bebd8fb112ee_0 : 在過度負債程序期間可以提出申請嗎？從檔案可受理時開始…

輸出結果

在過度負債的情況下，恢復程序包括幾個步驟。首先，相關人員必須滿足某些條件才有資格參與此程序<ref text="當過度負債者擁有可出售的資產時，恢復程序旨在消除債務，並通過司法清算（出售資產）進行。">[28e7fcf81deee0ff_0]。然後，過度負債委員會在得到負債者同意的情況下啟動程序。如果負債者擁有可出售的資產，則進行司法清算<ref text="當過度負債者擁有可出售的資產時，恢復程序旨在消除債務，並通過司法清算（出售資產）進行。">[28e7fcf81deee0ff_0]。反之，則啟動無需司法清算的程序<ref text="當過度負債者沒有資產時，恢復程序無需司法清算（即不出售資產）進行。">[4c4511d1c0e6dc4c_0]。在程序進行期間，有可能暫停對負債者的所有法律行動<ref text="從提交過度負債檔案開始。暫停期限。如果批准暫停，根據情況，暫停將持續到以下事件之一：檔案不可受理的決定、常規恢復計劃的批准、強制措施的決定、宣佈無需司法清算的個人恢復的判決、啟動通過司法清算實現個人恢復程序的判決。但暫停期限不得超過2年。">[b8d3342e4ac89fe9_0]。最後，通過判決結束程序，該判決可消除債務<ref text="宣佈無需司法清算的個人恢復的判決、啟動通過司法清算實現個人恢復程序的判決">[28e7fcf81deee0ff_0]。

📚 詳細文檔

模型詳情

模型描述

“威廉·退爾”模型旨在提高基於法國行政來源的文本生成的可驗證性。根據一個問題和五個來源的選擇，它可以生成有出處的答案，並帶有特殊的引用參數。

開發方：Etalab（數據實驗室服務部） - 數字政府跨部門司
版本：Guillaume - Tell - base
模型類型：Transformers，文本生成
許可證：[Apache - 2.0](https://spdx.org/licenses/Apache - 2.0.html)
基於模型訓練：OpenHermes - 2.5 - Mistral - 7B

模型使用

創建背景

“威廉·退爾”是為法國政府的跨部門生成式人工智能工具“ALBERT”開發的，特別是作為[基於人工智能的法國服務顧問協助模型實驗](https://www.france - services.gouv.fr/actualites/experimentation - dun - modele - dassistance - france - services - IA)的一部分。該模型旨在滿足顧問在使用大語言模型時的特定需求，即驗證“ALBERT”生成的答案的準確性，然後再將其傳達給法國服務中心接待的用戶。

模型目的和侷限性

“威廉·退爾”是一個語言模型，具備對話和檢索有出處信息的能力。它可用於回答與法國行政相關的問題（例如行政程序），通過從其知識庫（RAG）中檢索相關信息並進行合成。不過，“威廉·退爾”只能提供一級答案，無法給出複雜的行政答案，並且只能回答法國行政領域內的問題，僅以法語提供答案。

使用場景和用戶

該模型供法國行政部門的公職人員使用，以方便他們搜索行政信息。不建議將“威廉·退爾”直接交給未經過專門培訓、缺乏行政程序專業知識的人員，如公共服務的用戶。因為和所有大語言模型一樣，“威廉·退爾”存在回答錯誤（“幻覺”）或遺漏信息的風險，未經培訓的人員可能無法察覺這些問題。

提示信息

提示格式

和Mistral、Open - Hermes 2.5一樣，“威廉·退爾”的語法基於chatml。它需要特定的提示，以及為問題添加來源的預定義語法。

提示示例：

<|im_start|>system
你是法國服務中心的聊天機器人阿爾伯特，提供有出處的答案。<|im_end|>
<|im_start|>user
撰寫一篇有參考文獻的文本，回答這個問題：在過度負債的情況下，恢復程序的步驟有哪些？

參考文獻應按以下方式引用：撰寫的文本<ref text=\"[參考文獻中的相關段落]\">[\"參考文獻的標識符\"]</ref> 如果參考文獻無法提供答案，則表示沒有答案。

可用的五個參考文獻：

10965c7bc7a8e185_0 :(…)

4c4511d1c0e6dc4c_0 :(…)

b8d3342e4ac89fe9_0 :(…)

28e7fcf81deee0ff_0 :(…)

e568bebd8fb112ee_0 :(…)

目前，“威廉·退爾”在固定的五個來源選擇上進行訓練和測試。它應該可以在更多或更少的來源集合上工作，但這尚未經過實驗驗證。

微調信息

“威廉·退爾”使用低秩自適應（LORA）方法和4位量化進行微調，微調數據如下：

基於service - public.fr數據的3880條合成RAG指令。
基於service - public.fr和Open Hermes數據的5000條chatRAG指令。

微調代碼[finetuning.py](https://huggingface.co/AgentPublic/guillaumetell - 7b/blob/main/finetuning.py)可在[文件和版本](https://huggingface.co/AgentPublic/guillaumetell - 7b/tree/main)部分獲取。