Marsilia Embeddings FR Base
模型简介
该模型专注于金融领域,实现了超越 OpenAI 等闭源模型的性能,同时提供了更具成本效益的解决方案。适用于法语金融文本的句子嵌入生成。
模型特点
金融领域优化
专门针对法语金融文本进行微调,在金融领域任务中表现优异
超越闭源模型
在金融领域实现了超越 OpenAI 等闭源模型的性能
成本效益
相比专有解决方案提供更具成本效益的替代方案
高维嵌入
输出维度为768的高质量句子嵌入
模型能力
生成法语文本嵌入
金融文本语义搜索
金融信息聚类
金融信息检索
使用案例
金融信息检索
金融问答系统
用于构建金融领域的问答系统,提高检索准确性
在金融领域测试集上表现优异
金融文档聚类
对金融文档进行语义聚类分析
检索增强生成(RAG)
金融RAG应用
作为金融领域RAG应用的嵌入组件
展示了针对特定任务微调嵌入模型的重要性
🚀 Marsilia-Embeddings-FR-Base
Marsilia-Embeddings-FR-Base 是一款专门为金融领域任务设计的法语嵌入模型。该模型作为概念验证,展示了在检索增强生成(RAG)应用中,针对特定任务微调嵌入模型的重要性。通过专注于金融领域,它的性能甚至超越了像 OpenAI 嵌入这样的闭源模型,同时提供了更具成本效益的解决方案,这表明有针对性的微调可以显著提升开源模型的能力,使其在专业领域与专有模型竞争甚至更胜一筹。
🚀 快速开始
要使用 Sentence Transformers 库调用此模型,请参考以下代码:
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sujet-ai/Marsilia-Embeddings-FR-Base")
# Run inference
sentences = [
"Comment les décisions du HCSF et du CERS peuvent-elles influencer les stratégies d'investissement des institutions financières ?",
'Les analyses menées par le HCSF pour la France l'ont conduit à juger les risques faibles et à décider de ne pas activer de coussin contra -cyclique dédié pour ces expositions45. À l'issue de son analyse concernant les pays tiers matériels pour l'Union européenne, le CERS, qui assure la coordination des actions macroprudentielles en Europe, n'a pas recommandé la fixation de taux de coussin contra -cyclique pour les pays tiers. 41 Décision n°D -HCSF -2022 -6 du 27 décembre 2022 r elative au taux du coussin de fonds propres contra -cyclique . 42 Articles 138 et 139 CRD 43 Recommandation du Comit é europ éen du risque syst émique du 11 décembre 2015 sur la reconnaissance et la fixation des taux de coussin contra -cyclique applicables aux expositions à des pays tiers (CERS/2015/1), recommandation B2. 44 En effet, l'art. 139 de CRD dispose que les autorités désignées peuvent adopter un taux de CCyB applicable aux établissements domestiques sur les expositions aux pays tiers dè s lors qu'aucun taux n'a été fixé ou que le taux fixé par l'autorité du pays tiers est jugé insuffisant. 45 Le suivi des risques est réalisé par le CERS quand les pays sont identifiés comme importants au niveau de l'Union européenne.',
'RAPPORT ANNUEL 2023 Haut Conseil de stabilité financière 18 L'encours des dépôts bancaires des SNF est ainsi passé de 689 Md€ fin 2019 à 913 Md€ fin 2022, tandis que la trésorerie totale des SNF est passée de 817 Md€ au T4 2019 à 1 077 Md€ au T4 2022, représentant un peu plus de 50 % de la dette totale des SNF. Pour autant, rapportée au produit intérieur brut (PIB) ou aux résultats des entreprises27, la dynamique de la dette brute des SNF apparaît davantage contenue par rapport au niveau pré -crise. À fin 2022 , l'encours de dette brute consolidée des SNF représentait ainsi 4,8 fois l e résultat annuel des entreprises, contre 4,2 fin 2019 , tandis que la dette brute consolidée des SNF représentait 80,8 % du PIB à fin 2022, contre 73 % à fin 2019. La dette nette consolidée, rapportée au PIB ou mesurée en années de résultats des entreprises, est quant à elle restée stable en 2022, et demeure comparable à sa moyenne sur la période 2010 -2021 (Graphique 18). 27 Mesurés par l' excédent brut d' exploitation (EBE). Graphique 16 – Demande et accès des PME au crédit de trésorerie (%) Graphique 17 – Flux annuels de dette et tréso rerie des entreprises sur la période 2019 - 2022 (Md€) Source : Banque de France. Dernier point : T1 2023. Note de lecture : au T1 2023, 4,8 % des PME interrogées avaient indiqué avoir demandé un crédit de trésorerie et 95,6 % d'entre elles ont obtenu plus de 75 % du montant demandé. Source : Banque de France.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
✨ 主要特性
- 专为金融领域的法语任务设计,在该领域表现出色。
- 基于 Sentence Transformer 架构,具有 768 维的输出维度。
- 微调后的性能超越部分闭源模型,且成本效益更高。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sujet-ai/Marsilia-Embeddings-FR-Base")
# Run inference
sentences = [
"Comment les décisions du HCSF et du CERS peuvent-elles influencer les stratégies d'investissement des institutions financières ?",
'Les analyses menées par le HCSF pour la France l'ont conduit à juger les risques faibles et à décider de ne pas activer de coussin contra -cyclique dédié pour ces expositions45. À l'issue de son analyse concernant les pays tiers matériels pour l'Union européenne, le CERS, qui assure la coordination des actions macroprudentielles en Europe, n'a pas recommandé la fixation de taux de coussin contra -cyclique pour les pays tiers. 41 Décision n°D -HCSF -2022 -6 du 27 décembre 2022 r elative au taux du coussin de fonds propres contra -cyclique . 42 Articles 138 et 139 CRD 43 Recommandation du Comit é europ éen du risque syst émique du 11 décembre 2015 sur la reconnaissance et la fixation des taux de coussin contra -cyclique applicables aux expositions à des pays tiers (CERS/2015/1), recommandation B2. 44 En effet, l'art. 139 de CRD dispose que les autorités désignées peuvent adopter un taux de CCyB applicable aux établissements domestiques sur les expositions aux pays tiers dè s lors qu'aucun taux n'a été fixé ou que le taux fixé par l'autorité du pays tiers est jugé insuffisant. 45 Le suivi des risques est réalisé par le CERS quand les pays sont identifiés comme importants au niveau de l'Union européenne.',
'RAPPORT ANNUEL 2023 Haut Conseil de stabilité financière 18 L'encours des dépôts bancaires des SNF est ainsi passé de 689 Md€ fin 2019 à 913 Md€ fin 2022, tandis que la trésorerie totale des SNF est passée de 817 Md€ au T4 2019 à 1 077 Md€ au T4 2022, représentant un peu plus de 50 % de la dette totale des SNF. Pour autant, rapportée au produit intérieur brut (PIB) ou aux résultats des entreprises27, la dynamique de la dette brute des SNF apparaît davantage contenue par rapport au niveau pré -crise. À fin 2022 , l'encours de dette brute consolidée des SNF représentait ainsi 4,8 fois l e résultat annuel des entreprises, contre 4,2 fin 2019 , tandis que la dette brute consolidée des SNF représentait 80,8 % du PIB à fin 2022, contre 73 % à fin 2019. La dette nette consolidée, rapportée au PIB ou mesurée en années de résultats des entreprises, est quant à elle restée stable en 2022, et demeure comparable à sa moyenne sur la période 2010 -2021 (Graphique 18). 27 Mesurés par l' excédent brut d' exploitation (EBE). Graphique 16 – Demande et accès des PME au crédit de trésorerie (%) Graphique 17 – Flux annuels de dette et tréso rerie des entreprises sur la période 2019 - 2022 (Md€) Source : Banque de France. Dernier point : T1 2023. Note de lecture : au T1 2023, 4,8 % des PME interrogées avaient indiqué avoir demandé un crédit de trésorerie et 95,6 % d'entre elles ont obtenu plus de 75 % du montant demandé. Source : Banque de France.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
高级用法
文档未提及高级用法相关代码,故跳过此部分。
📚 详细文档
预期用途
该模型旨在为法语文本生成句子嵌入,尤其适用于金融领域。它可用于各种自然语言处理任务,如语义搜索、聚类和信息检索。
训练数据
该模型在 sujet-ai/Sujet-Financial-RAG-FR-Dataset 上进行了微调。这个数据集由法语的问题 - 上下文对组成,专注于金融主题。
- 训练集大小:28,880 个样本
训练过程
训练超参数
- 损失函数:MultipleNegativesRankingLoss
- 缩放比例:20.0
- 相似度函数:余弦相似度
- 评估策略:按步骤评估
- 每个设备的训练批次大小:100
- 每个设备的评估批次大小:100
- 训练轮数:10
- 批次采样器:no_duplicates
- 多数据集批次采样器:round_robin
- 调度器:Warmup cosine
框架版本
- Python:3.10.13
- Sentence Transformers:3.0.1
- Transformers:4.42.3
- PyTorch:2.5.0.dev20240704+cu124
- Accelerate:0.32.1
- Datasets:2.20.0
- Tokenizers:0.19.1
评估
该模型使用 InformationRetrievalEvaluator
在 sujet-ai/Sujet-Financial-RAG-FR-Dataset 的测试集上进行了评估。
局限性
该模型是专门针对法语金融文本进行训练的,在其他领域或语言上可能无法达到最佳性能。用户应注意训练数据中可能存在的偏差。
🔧 技术细节
模型信息
属性 | 详情 |
---|---|
模型类型 | 句子转换器(Sentence Transformer) |
语言 | 法语 |
基础模型 | OrdalieTech/Solon-embeddings-base-0.1 |
最大序列长度 | 512 个标记 |
输出维度 | 768 |
相似度函数 | 余弦相似度 |
📄 许可证
本项目采用 MIT 许可证。
📄 引用
如果您在研究或应用中使用了此模型,请引用以下内容:
@software{Marsilia-Embeddings-FR-Base,
author = {Sujet AI, Allaa Boutaleb, Hamed Rahimi},
title = {Marsilia-Embeddings-FR-Base: A fine-tuned French embedding model for financial texts},
year = {2024},
url = {https://huggingface.co/sujet-ai/Marsilia-Embeddings-FR-Base}
}
📧 联系信息
如有问题、反馈或合作需求,请通过 LinkedIn 联系我们,或访问我们的网站 https://sujet.ai。
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98