🚀 模型卡片:威廉·退尔
“威廉·退尔”是一款基于Mistral Open - Hermes 2.5的法语大语言模型(LLM),针对检索增强生成(RAG)进行了优化,具备来源可追溯性和可解释性。
🚀 快速开始
“威廉·退尔”模型专为法国行政信息检索而设计,能够依据给定的问题和相关来源生成有出处的答案。以下将详细介绍其使用方法、适用场景、模型细节等内容。
✨ 主要特性
- RAG优化:专为检索增强生成(RAG)设计,可有效利用外部数据源生成更准确的答案。
- 来源可追溯:生成的答案带有来源标识,方便用户追溯信息出处。
- 法语适配:专门针对法语进行优化,仅以法语生成答案。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
示例问题
问题:在过度负债的情况下,恢复程序的步骤有哪些?
参考来源
- 10965c7bc7a8e185_0 : 过度负债:通过司法清算实现个人恢复。恢复程序旨在消除过度负债者的债务…
- 4c4511d1c0e6dc4c_0 : 过度负债:无需司法清算的个人恢复。个人恢复程序旨在消除债务
- b8d3342e4ac89fe9_0 : 在过度负债程序期间可以提出申请吗?从提交过度负债档案开始。暂停期限…
- n28e7fcf81deee0ff_0 : 过度负债:通过司法清算实现个人恢复。条件。相关人员。启动通过司法清算实现个人恢复的程序…
- 568bebd8fb112ee_0 : 在过度负债程序期间可以提出申请吗?从档案可受理时开始…
输出结果
在过度负债的情况下,恢复程序包括几个步骤。首先,相关人员必须满足某些条件才有资格参与此程序<ref text="当过度负债者拥有可出售的资产时,恢复程序旨在消除债务,并通过司法清算(出售资产)进行。">[28e7fcf81deee0ff_0]。
然后,过度负债委员会在得到负债者同意的情况下启动程序。如果负债者拥有可出售的资产,则进行司法清算<ref text="当过度负债者拥有可出售的资产时,恢复程序旨在消除债务,并通过司法清算(出售资产)进行。">[28e7fcf81deee0ff_0]。
反之,则启动无需司法清算的程序<ref text="当过度负债者没有资产时,恢复程序无需司法清算(即不出售资产)进行。">[4c4511d1c0e6dc4c_0]。
在程序进行期间,有可能暂停对负债者的所有法律行动<ref text="从提交过度负债档案开始。暂停期限。如果批准暂停,根据情况,暂停将持续到以下事件之一:档案不可受理的决定、常规恢复计划的批准、强制措施的决定、宣布无需司法清算的个人恢复的判决、启动通过司法清算实现个人恢复程序的判决。但暂停期限不得超过2年。">[b8d3342e4ac89fe9_0]。
最后,通过判决结束程序,该判决可消除债务<ref text="宣布无需司法清算的个人恢复的判决、启动通过司法清算实现个人恢复程序的判决">[28e7fcf81deee0ff_0]。
📚 详细文档
模型详情
模型描述
“威廉·退尔”模型旨在提高基于法国行政来源的文本生成的可验证性。根据一个问题和五个来源的选择,它可以生成有出处的答案,并带有特殊的引用参数。
- 开发方:Etalab(数据实验室服务部) - 数字政府跨部门司
- 版本:Guillaume - Tell - base
- 模型类型:Transformers,文本生成
- 许可证:[Apache - 2.0](https://spdx.org/licenses/Apache - 2.0.html)
- 基于模型训练:OpenHermes - 2.5 - Mistral - 7B
模型使用
创建背景
“威廉·退尔”是为法国政府的跨部门生成式人工智能工具“ALBERT”开发的,特别是作为[基于人工智能的法国服务顾问协助模型实验](https://www.france - services.gouv.fr/actualites/experimentation - dun - modele - dassistance - france - services - IA)的一部分。该模型旨在满足顾问在使用大语言模型时的特定需求,即验证“ALBERT”生成的答案的准确性,然后再将其传达给法国服务中心接待的用户。
模型目的和局限性
“威廉·退尔”是一个语言模型,具备对话和检索有出处信息的能力。它可用于回答与法国行政相关的问题(例如行政程序),通过从其知识库(RAG)中检索相关信息并进行合成。
不过,“威廉·退尔”只能提供一级答案,无法给出复杂的行政答案,并且只能回答法国行政领域内的问题,仅以法语提供答案。
使用场景和用户
该模型供法国行政部门的公职人员使用,以方便他们搜索行政信息。不建议将“威廉·退尔”直接交给未经过专门培训、缺乏行政程序专业知识的人员,如公共服务的用户。因为和所有大语言模型一样,“威廉·退尔”存在回答错误(“幻觉”)或遗漏信息的风险,未经培训的人员可能无法察觉这些问题。
提示信息
提示格式
和Mistral、Open - Hermes 2.5一样,“威廉·退尔”的语法基于chatml。它需要特定的提示,以及为问题添加来源的预定义语法。
提示示例:
<|im_start|>system
你是法国服务中心的聊天机器人阿尔伯特,提供有出处的答案。<|im_end|>
<|im_start|>user
撰写一篇有参考文献的文本,回答这个问题:在过度负债的情况下,恢复程序的步骤有哪些?
参考文献应按以下方式引用:撰写的文本<ref text=\"[参考文献中的相关段落]\">[\"参考文献的标识符\"]</ref> 如果参考文献无法提供答案,则表示没有答案。
可用的五个参考文献:
10965c7bc7a8e185_0 :(…)
4c4511d1c0e6dc4c_0 :(…)
b8d3342e4ac89fe9_0 :(…)
28e7fcf81deee0ff_0 :(…)
e568bebd8fb112ee_0 :(…)
目前,“威廉·退尔”在固定的五个来源选择上进行训练和测试。它应该可以在更多或更少的来源集合上工作,但这尚未经过实验验证。
微调信息
“威廉·退尔”使用低秩自适应(LORA)方法和4位量化进行微调,微调数据如下:
- 基于service - public.fr数据的3880条合成RAG指令。
- 基于service - public.fr和Open Hermes数据的5000条chatRAG指令。
微调代码[finetuning.py
](https://huggingface.co/AgentPublic/guillaumetell - 7b/blob/main/finetuning.py)可在[文件和版本
](https://huggingface.co/AgentPublic/guillaumetell - 7b/tree/main)部分获取。
使用阿尔伯特进行RAG任务
可以使用检索增强生成(RAG)技术来优化模型回答的相关性,从而根据问题获取基于正确数据的答案。目前在生产环境中,“ALBERT”就是这样使用的。
在模型发布时,用于“ALBERT”的RAG数据包括:
- 将service - public.fr的文档切割成300字的片段。
术语表
- 法国服务:一个地方结构网络,将实体接待与数字支持相结合,帮助访客处理多个公共服务的行政程序。
- 大语言模型(LLM):一种深度学习模型,能够通过处理大量文本数据来理解和生成人类语言。
- 检索增强生成(RAG):一种提高生成式人工智能性能的技术,使大语言模型能够使用额外的数据资源,而无需重新训练。
🔧 技术细节
文档未提供具体的技术实现细节(内容不足50字),故跳过此章节。
📄 许可证
本模型使用[Apache - 2.0](https://spdx.org/licenses/Apache - 2.0.html)许可证。