🚀 mStyleDistanceモデル
このモデルは、多言語の文章のスタイルをエンベッドすることで、書き方のスタイルが似ている文章を近くに、異なるスタイルの文章を遠くに配置することを目的としています。文章の内容や言語に関係なく、このモデルは多言語テキストの文体分析、クラスタリング、著者識別と検証タスク、および自動スタイル転送評価に役立つ可能性があります。
🔍 モデル情報
属性 |
详情 |
ベースモデル |
FacebookAI/xlm - roberta - base |
データセット |
StyleDistance/mstyledistance_training_triplets |
ライブラリ名 |
sentence - transformers |
パイプラインタグ |
feature - extraction |
ライセンス |
mit |
タグ |
datadreamer, datadreamer - 0.35.0, synthetic, sentence - transformers, feature - extraction, sentence - similarity |
🚀 クイックスタート
このリポジトリには、mStyleDistance: Multilingual Style Embeddings and their Evaluationで紹介されたモデルが含まれています。mStyleDistanceは、英語版のStyleDistanceモデルの多言語版です。
✨ 主な機能
- 多言語の文章のスタイルをエンベッドし、類似したスタイルの文章を近くに、異なるスタイルの文章を遠くに配置します。
- 多言語テキストの文体分析、クラスタリング、著者識別と検証タスク、および自動スタイル転送評価に利用できます。
📦 トレーニングデータとバリエーション
mStyleDistanceは、mSynthSTELという合成データセットを使用して対照的にトレーニングされました。このデータセットには、9つの非英語言語での約40のスタイル特徴の正例と負例が含まれています。この合成データセットを利用することで、mStyleDistanceは他のスタイル埋め込みモデルよりも強力な内容独立性を達成し、多言語テキストで動作することができます。
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
model = SentenceTransformer('StyleDistance/mstyledistance')
input = model.encode("ÉL TIENE PROBLEMAS PARA LOGRAR LA TEMPERATURA ADECUADA PARA COCINAR LA GALLINA CORNISH.")
others = model.encode(["TOCARÁS LA GUITARRA CON TU AMIGO; SERÁ UNA EXCELENTE OPORTUNIDAD PARA MEJORAR TUS HABILIDADES MUSICALES.", "Él tiene problemas para lograr la temperatura adecuada para cocinar la gallina Cornish."])
print(cos_sim(input, others))
📚 詳細ドキュメント
モデルの詳細については、論文StyleDistance/mstyledistanceを参照してください。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
📋 ウィジェットの使用例
- Example 1
- ソース文章: 彼は技術的な複雑さと格闘し、彼の作品は驚くべき視覚的緊張を生み出した。
- 比較文章:
- Serviste mariscos frescos en el condado de Middlesex y áreas circundantes.
- Él sirvió mariscos frescos en el condado de Middlesex y áreas circundantes.
- Example 2
- ソース文章: Bien sûr, ils termineront la construction du pont en une semaine.
- 比較文章:
- Oh, you mean when I single - handedly tackled that bespoke headboard project?
- Remember when I completed that bespoke headboard project on my own?
- Example 3
- ソース文章: 我将使用有限的色调和小尺寸进行像素艺术的简化和风格化设计。
- 比較文章:
- Я ценю ТТ - пистолет за его огневую мощь; его проникающая способность впечатляет меня.
- 你将使用有限的色调和小尺寸进行像素艺术的简化和风格化设计。
📖 引用
@misc{qiu2025mstyledistancemultilingualstyleembeddings,
title={mStyleDistance: Multilingual Style Embeddings and their Evaluation},
author={Justin Qiu and Jiacheng Zhu and Ajay Patel and Marianna Apidianaki and Chris Callison - Burch},
year={2025},
eprint={2502.15168},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.15168},
}
💡 トレーニングに関する情報
このモデルは、DataDreamer 🤖💤を使用して合成データセットでトレーニングされました。合成データセットカードとモデルカードはこちらで、トレーニング引数はこちらで確認できます。
🎗️ 資金提供の謝辞
この研究は、国家情報局長室(ODNI)、知能先端研究プロジェクト局(IARPA)によるHIATUSプログラム契約 #2022 - 22072200005の一部として支援されています。本書に含まれる見解および結論は著者のものであり、ODNI、IARPA、または米国政府の公式政策を必ずしも代表するものと解釈されるべきではありません。米国政府は、著作権表示に関係なく、政府目的での複製および配布が許可されています。