guillaumetell-7b开源法语大语言模型 - 支持可溯源解释的检索增强生成

首页

Guillaumetell 7b

由 AgentPublic 开发

基于Mistral Open-Hermes 2.5优化的法语大语言模型，专为具有来源追溯和可解释性的检索增强生成(RAG)设计

大型语言模型

Transformers

法语开源协议:Apache-2.0 #法语行政问答 #溯源引用生成 #检索增强生成

下载量 73

发布时间 : 1/17/2024

模型简介

该模型旨在提升基于法国行政来源文本生成的可验证性，能生成带有特殊引用参数的可溯源性回答

模型特点

行政信息溯源

生成回答时可自动关联行政信息来源并标注引用

RAG优化

专为检索增强生成任务设计，提升回答准确性

行政领域专注

专注于法国行政手续相关问题的解答

模型能力

法语文本生成

行政信息检索

引用标注

问答系统

使用案例

公共服务

法国服务中心顾问辅助

帮助公共服务顾问快速查询行政手续信息

生成带来源引用的准确回答

行政手续咨询

解答公众关于债务处理等行政程序问题

提供分步骤的行政指导

🚀 模型卡片：威廉·退尔

“威廉·退尔”是一款基于Mistral Open - Hermes 2.5的法语大语言模型（LLM），针对检索增强生成（RAG）进行了优化，具备来源可追溯性和可解释性。

🚀 快速开始

“威廉·退尔”模型专为法国行政信息检索而设计，能够依据给定的问题和相关来源生成有出处的答案。以下将详细介绍其使用方法、适用场景、模型细节等内容。

✨ 主要特性

RAG优化：专为检索增强生成（RAG）设计，可有效利用外部数据源生成更准确的答案。
来源可追溯：生成的答案带有来源标识，方便用户追溯信息出处。
法语适配：专门针对法语进行优化，仅以法语生成答案。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

示例问题

问题：在过度负债的情况下，恢复程序的步骤有哪些？

参考来源

10965c7bc7a8e185_0 : 过度负债：通过司法清算实现个人恢复。恢复程序旨在消除过度负债者的债务…

4c4511d1c0e6dc4c_0 : 过度负债：无需司法清算的个人恢复。个人恢复程序旨在消除债务

b8d3342e4ac89fe9_0 : 在过度负债程序期间可以提出申请吗？从提交过度负债档案开始。暂停期限…

n28e7fcf81deee0ff_0 : 过度负债：通过司法清算实现个人恢复。条件。相关人员。启动通过司法清算实现个人恢复的程序…

568bebd8fb112ee_0 : 在过度负债程序期间可以提出申请吗？从档案可受理时开始…

输出结果

在过度负债的情况下，恢复程序包括几个步骤。首先，相关人员必须满足某些条件才有资格参与此程序<ref text="当过度负债者拥有可出售的资产时，恢复程序旨在消除债务，并通过司法清算（出售资产）进行。">[28e7fcf81deee0ff_0]。然后，过度负债委员会在得到负债者同意的情况下启动程序。如果负债者拥有可出售的资产，则进行司法清算<ref text="当过度负债者拥有可出售的资产时，恢复程序旨在消除债务，并通过司法清算（出售资产）进行。">[28e7fcf81deee0ff_0]。反之，则启动无需司法清算的程序<ref text="当过度负债者没有资产时，恢复程序无需司法清算（即不出售资产）进行。">[4c4511d1c0e6dc4c_0]。在程序进行期间，有可能暂停对负债者的所有法律行动<ref text="从提交过度负债档案开始。暂停期限。如果批准暂停，根据情况，暂停将持续到以下事件之一：档案不可受理的决定、常规恢复计划的批准、强制措施的决定、宣布无需司法清算的个人恢复的判决、启动通过司法清算实现个人恢复程序的判决。但暂停期限不得超过2年。">[b8d3342e4ac89fe9_0]。最后，通过判决结束程序，该判决可消除债务<ref text="宣布无需司法清算的个人恢复的判决、启动通过司法清算实现个人恢复程序的判决">[28e7fcf81deee0ff_0]。

📚 详细文档

模型详情

模型描述

“威廉·退尔”模型旨在提高基于法国行政来源的文本生成的可验证性。根据一个问题和五个来源的选择，它可以生成有出处的答案，并带有特殊的引用参数。

开发方：Etalab（数据实验室服务部） - 数字政府跨部门司
版本：Guillaume - Tell - base
模型类型：Transformers，文本生成
许可证：[Apache - 2.0](https://spdx.org/licenses/Apache - 2.0.html)
基于模型训练：OpenHermes - 2.5 - Mistral - 7B

模型使用

创建背景

“威廉·退尔”是为法国政府的跨部门生成式人工智能工具“ALBERT”开发的，特别是作为[基于人工智能的法国服务顾问协助模型实验](https://www.france - services.gouv.fr/actualites/experimentation - dun - modele - dassistance - france - services - IA)的一部分。该模型旨在满足顾问在使用大语言模型时的特定需求，即验证“ALBERT”生成的答案的准确性，然后再将其传达给法国服务中心接待的用户。

模型目的和局限性

“威廉·退尔”是一个语言模型，具备对话和检索有出处信息的能力。它可用于回答与法国行政相关的问题（例如行政程序），通过从其知识库（RAG）中检索相关信息并进行合成。不过，“威廉·退尔”只能提供一级答案，无法给出复杂的行政答案，并且只能回答法国行政领域内的问题，仅以法语提供答案。

使用场景和用户

该模型供法国行政部门的公职人员使用，以方便他们搜索行政信息。不建议将“威廉·退尔”直接交给未经过专门培训、缺乏行政程序专业知识的人员，如公共服务的用户。因为和所有大语言模型一样，“威廉·退尔”存在回答错误（“幻觉”）或遗漏信息的风险，未经培训的人员可能无法察觉这些问题。

提示信息

提示格式

和Mistral、Open - Hermes 2.5一样，“威廉·退尔”的语法基于chatml。它需要特定的提示，以及为问题添加来源的预定义语法。

提示示例：

<|im_start|>system
你是法国服务中心的聊天机器人阿尔伯特，提供有出处的答案。<|im_end|>
<|im_start|>user
撰写一篇有参考文献的文本，回答这个问题：在过度负债的情况下，恢复程序的步骤有哪些？

参考文献应按以下方式引用：撰写的文本<ref text=\"[参考文献中的相关段落]\">[\"参考文献的标识符\"]</ref> 如果参考文献无法提供答案，则表示没有答案。

可用的五个参考文献：

10965c7bc7a8e185_0 :(…)

4c4511d1c0e6dc4c_0 :(…)

b8d3342e4ac89fe9_0 :(…)

28e7fcf81deee0ff_0 :(…)

e568bebd8fb112ee_0 :(…)

目前，“威廉·退尔”在固定的五个来源选择上进行训练和测试。它应该可以在更多或更少的来源集合上工作，但这尚未经过实验验证。

微调信息

“威廉·退尔”使用低秩自适应（LORA）方法和4位量化进行微调，微调数据如下：

基于service - public.fr数据的3880条合成RAG指令。
基于service - public.fr和Open Hermes数据的5000条chatRAG指令。

微调代码[finetuning.py](https://huggingface.co/AgentPublic/guillaumetell - 7b/blob/main/finetuning.py)可在[文件和版本](https://huggingface.co/AgentPublic/guillaumetell - 7b/tree/main)部分获取。