🚀 Marsilia-Embeddings-FR-Base
Marsilia-Embeddings-FR-Base は、金融ドメインのタスクに特化したフランス語の埋め込みモデルです。このモデルは、検索拡張生成 (RAG) アプリケーションにおける特定のタスク向けに埋め込みモデルを微調整することの重要性を実証する概念実証モデルです。金融ドメインに焦点を当てることで、Marsilia-Embeddings-FR-Base は、OpenAI の埋め込みモデルなどの閉ソースモデルを上回る性能を達成し、より費用対効果の高いソリューションを提供します。これは、ターゲットを絞った微調整がオープンソースモデルの能力を劇的に向上させ、専門分野では独自の代替モデルと競争したり、それを上回ったりすることができることを示しています。
🚀 クイックスタート
このモデルを使うことで、フランス語の文章埋め込みを生成することができ、特に金融ドメインにおいて、意味検索、クラスタリング、情報検索などの様々な自然言語処理タスクに利用できます。
✨ 主な機能
- 金融ドメインのフランス語文章に特化した埋め込みモデル。
- 微調整により、閉ソースモデルを上回る性能を達成。
- 費用対効果が高いソリューションを提供。
📦 インストール
このモデルを Sentence Transformers ライブラリで使用するには、以下のコードを実行します。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sujet-ai/Marsilia-Embeddings-FR-Base")
sentences = [
"Comment les décisions du HCSF et du CERS peuvent-elles influencer les stratégies d'investissement des institutions financières ?",
'Les analyses menées par le HCSF pour la France l'ont conduit à juger les risques faibles et à décider de ne pas activer de coussin contra -cyclique dédié pour ces expositions45. À l'issue de son analyse concernant les pays tiers matériels pour l'Union européenne, le CERS, qui assure la coordination des actions macroprudentielles en Europe, n'a pas recommandé la fixation de taux de coussin contra -cyclique pour les pays tiers. 41 Décision n°D -HCSF -2022 -6 du 27 décembre 2022 r elative au taux du coussin de fonds propres contra -cyclique . 42 Articles 138 et 139 CRD 43 Recommandation du Comit é europ éen du risque syst émique du 11 décembre 2015 sur la reconnaissance et la fixation des taux de coussin contra -cyclique applicables aux expositions à des pays tiers (CERS/2015/1), recommandation B2. 44 En effet, l'art. 139 de CRD dispose que les autorités désignées peuvent adopter un taux de CCyB applicable aux établissements domestiques sur les expositions aux pays tiers dè s lors qu'aucun taux n'a été fixé ou que le taux fixé par l'autorité du pays tiers est jugé insuffisant. 45 Le suivi des risques est réalisé par le CERS quand les pays sont identifiés comme importants au niveau de l'Union européenne.',
'RAPPORT ANNUEL 2023 Haut Conseil de stabilité financière 18 L'encours des dépôts bancaires des SNF est ainsi passé de 689 Md€ fin 2019 à 913 Md€ fin 2022, tandis que la trésorerie totale des SNF est passée de 817 Md€ au T4 2019 à 1 077 Md€ au T4 2022, représentant un peu plus de 50 % de la dette totale des SNF. Pour autant, rapportée au produit intérieur brut (PIB) ou aux résultats des entreprises27, la dynamique de la dette brute des SNF apparaît davantage contenue par rapport au niveau pré -crise. À fin 2022 , l'encours de dette brute consolidée des SNF représentait ainsi 4,8 fois l e résultat annuel des entreprises, contre 4,2 fin 2019 , tandis que la dette brute consolidée des SNF représentait 80,8 % du PIB à fin 2022, contre 73 % à fin 2019. La dette nette consolidée, rapportée au PIB ou mesurée en années de résultats des entreprises, est quant à elle restée stable en 2022, et demeure comparable à sa moyenne sur la période 2010 -2021 (Graphique 18). 27 Mesurés par l' excédent brut d' exploitation (EBE). Graphique 16 – Demande et accès des PME au crédit de trésorerie (%) Graphique 17 – Flux annuels de dette et tréso rerie des entreprises sur la période 2019 - 2022 (Md€) Source : Banque de France. Dernier point : T1 2023. Note de lecture : au T1 2023, 4,8 % des PME interrogées avaient indiqué avoir demandé un crédit de trésorerie et 95,6 % d'entre elles ont obtenu plus de 75 % du montant demandé. Source : Banque de France.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 ドキュメント
モデル詳細
学習データ
このモデルは、sujet-ai/Sujet-Financial-RAG-FR-Dataset で微調整されました。このデータセットは、金融トピックに焦点を当てたフランス語の質問とコンテキストのペアで構成されています。
学習手順
学習ハイパーパラメータ
- 損失関数: MultipleNegativesRankingLoss
- スケール: 20.0
- 類似度関数: コサイン類似度
- 評価戦略: Steps
- デバイスごとの学習バッチサイズ: 100
- デバイスごとの評価バッチサイズ: 100
- 学習エポック数: 10
- バッチサンプラー: no_duplicates
- マルチデータセットバッチサンプラー: round_robin
- スケジューラー: Warmup cosine
フレームワークバージョン
- Python: 3.10.13
- Sentence Transformers: 3.0.1
- Transformers: 4.42.3
- PyTorch: 2.5.0.dev20240704+cu124
- Accelerate: 0.32.1
- Datasets: 2.20.0
- Tokenizers: 0.19.1
評価
このモデルは、sujet-ai/Sujet-Financial-RAG-FR-Dataset のテスト分割データで InformationRetrievalEvaluator
を使用して評価されました。
制限事項
このモデルは、フランス語の金融テキストで特に訓練されており、他のドメインや言語では最適な性能を発揮しない可能性があります。ユーザーは、学習データに潜在的なバイアスが存在することを認識する必要があります。
引用
このモデルを研究やアプリケーションで使用する場合は、以下のように引用してください。
@software{Marsilia-Embeddings-FR-Base,
author = {Sujet AI, Allaa Boutaleb, Hamed Rahimi},
title = {Marsilia-Embeddings-FR-Base: A fine-tuned French embedding model for financial texts},
year = {2024},
url = {https://huggingface.co/sujet-ai/Marsilia-Embeddings-FR-Base}
}
連絡先
質問、フィードバック、またはコラボレーションについては、LinkedIn でお問い合わせいただくか、当社のウェブサイト https://sujet.ai をご覧ください。