🚀 模型卡片:威廉·退爾
“威廉·退爾”是一款基於Mistral Open - Hermes 2.5的法語大語言模型(LLM),針對檢索增強生成(RAG)進行了優化,具備來源可追溯性和可解釋性。
🚀 快速開始
“威廉·退爾”模型專為法國行政信息檢索而設計,能夠依據給定的問題和相關來源生成有出處的答案。以下將詳細介紹其使用方法、適用場景、模型細節等內容。
✨ 主要特性
- RAG優化:專為檢索增強生成(RAG)設計,可有效利用外部數據源生成更準確的答案。
- 來源可追溯:生成的答案帶有來源標識,方便用戶追溯信息出處。
- 法語適配:專門針對法語進行優化,僅以法語生成答案。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
示例問題
問題:在過度負債的情況下,恢復程序的步驟有哪些?
參考來源
- 10965c7bc7a8e185_0 : 過度負債:通過司法清算實現個人恢復。恢復程序旨在消除過度負債者的債務…
- 4c4511d1c0e6dc4c_0 : 過度負債:無需司法清算的個人恢復。個人恢復程序旨在消除債務
- b8d3342e4ac89fe9_0 : 在過度負債程序期間可以提出申請嗎?從提交過度負債檔案開始。暫停期限…
- n28e7fcf81deee0ff_0 : 過度負債:通過司法清算實現個人恢復。條件。相關人員。啟動通過司法清算實現個人恢復的程序…
- 568bebd8fb112ee_0 : 在過度負債程序期間可以提出申請嗎?從檔案可受理時開始…
輸出結果
在過度負債的情況下,恢復程序包括幾個步驟。首先,相關人員必須滿足某些條件才有資格參與此程序<ref text="當過度負債者擁有可出售的資產時,恢復程序旨在消除債務,並通過司法清算(出售資產)進行。">[28e7fcf81deee0ff_0]。
然後,過度負債委員會在得到負債者同意的情況下啟動程序。如果負債者擁有可出售的資產,則進行司法清算<ref text="當過度負債者擁有可出售的資產時,恢復程序旨在消除債務,並通過司法清算(出售資產)進行。">[28e7fcf81deee0ff_0]。
反之,則啟動無需司法清算的程序<ref text="當過度負債者沒有資產時,恢復程序無需司法清算(即不出售資產)進行。">[4c4511d1c0e6dc4c_0]。
在程序進行期間,有可能暫停對負債者的所有法律行動<ref text="從提交過度負債檔案開始。暫停期限。如果批准暫停,根據情況,暫停將持續到以下事件之一:檔案不可受理的決定、常規恢復計劃的批准、強制措施的決定、宣佈無需司法清算的個人恢復的判決、啟動通過司法清算實現個人恢復程序的判決。但暫停期限不得超過2年。">[b8d3342e4ac89fe9_0]。
最後,通過判決結束程序,該判決可消除債務<ref text="宣佈無需司法清算的個人恢復的判決、啟動通過司法清算實現個人恢復程序的判決">[28e7fcf81deee0ff_0]。
📚 詳細文檔
模型詳情
模型描述
“威廉·退爾”模型旨在提高基於法國行政來源的文本生成的可驗證性。根據一個問題和五個來源的選擇,它可以生成有出處的答案,並帶有特殊的引用參數。
- 開發方:Etalab(數據實驗室服務部) - 數字政府跨部門司
- 版本:Guillaume - Tell - base
- 模型類型:Transformers,文本生成
- 許可證:[Apache - 2.0](https://spdx.org/licenses/Apache - 2.0.html)
- 基於模型訓練:OpenHermes - 2.5 - Mistral - 7B
模型使用
創建背景
“威廉·退爾”是為法國政府的跨部門生成式人工智能工具“ALBERT”開發的,特別是作為[基於人工智能的法國服務顧問協助模型實驗](https://www.france - services.gouv.fr/actualites/experimentation - dun - modele - dassistance - france - services - IA)的一部分。該模型旨在滿足顧問在使用大語言模型時的特定需求,即驗證“ALBERT”生成的答案的準確性,然後再將其傳達給法國服務中心接待的用戶。
模型目的和侷限性
“威廉·退爾”是一個語言模型,具備對話和檢索有出處信息的能力。它可用於回答與法國行政相關的問題(例如行政程序),通過從其知識庫(RAG)中檢索相關信息並進行合成。
不過,“威廉·退爾”只能提供一級答案,無法給出複雜的行政答案,並且只能回答法國行政領域內的問題,僅以法語提供答案。
使用場景和用戶
該模型供法國行政部門的公職人員使用,以方便他們搜索行政信息。不建議將“威廉·退爾”直接交給未經過專門培訓、缺乏行政程序專業知識的人員,如公共服務的用戶。因為和所有大語言模型一樣,“威廉·退爾”存在回答錯誤(“幻覺”)或遺漏信息的風險,未經培訓的人員可能無法察覺這些問題。
提示信息
提示格式
和Mistral、Open - Hermes 2.5一樣,“威廉·退爾”的語法基於chatml。它需要特定的提示,以及為問題添加來源的預定義語法。
提示示例:
<|im_start|>system
你是法國服務中心的聊天機器人阿爾伯特,提供有出處的答案。<|im_end|>
<|im_start|>user
撰寫一篇有參考文獻的文本,回答這個問題:在過度負債的情況下,恢復程序的步驟有哪些?
參考文獻應按以下方式引用:撰寫的文本<ref text=\"[參考文獻中的相關段落]\">[\"參考文獻的標識符\"]</ref> 如果參考文獻無法提供答案,則表示沒有答案。
可用的五個參考文獻:
10965c7bc7a8e185_0 :(…)
4c4511d1c0e6dc4c_0 :(…)
b8d3342e4ac89fe9_0 :(…)
28e7fcf81deee0ff_0 :(…)
e568bebd8fb112ee_0 :(…)
目前,“威廉·退爾”在固定的五個來源選擇上進行訓練和測試。它應該可以在更多或更少的來源集合上工作,但這尚未經過實驗驗證。
微調信息
“威廉·退爾”使用低秩自適應(LORA)方法和4位量化進行微調,微調數據如下:
- 基於service - public.fr數據的3880條合成RAG指令。
- 基於service - public.fr和Open Hermes數據的5000條chatRAG指令。
微調代碼[finetuning.py
](https://huggingface.co/AgentPublic/guillaumetell - 7b/blob/main/finetuning.py)可在[文件和版本
](https://huggingface.co/AgentPublic/guillaumetell - 7b/tree/main)部分獲取。
使用阿爾伯特進行RAG任務
可以使用檢索增強生成(RAG)技術來優化模型回答的相關性,從而根據問題獲取基於正確數據的答案。目前在生產環境中,“ALBERT”就是這樣使用的。
在模型發佈時,用於“ALBERT”的RAG數據包括:
- 將service - public.fr的文檔切割成300字的片段。
術語表
- 法國服務:一個地方結構網絡,將實體接待與數字支持相結合,幫助訪客處理多個公共服務的行政程序。
- 大語言模型(LLM):一種深度學習模型,能夠通過處理大量文本數據來理解和生成人類語言。
- 檢索增強生成(RAG):一種提高生成式人工智能性能的技術,使大語言模型能夠使用額外的數據資源,而無需重新訓練。
🔧 技術細節
文檔未提供具體的技術實現細節(內容不足50字),故跳過此章節。
📄 許可證
本模型使用[Apache - 2.0](https://spdx.org/licenses/Apache - 2.0.html)許可證。