🚀 mStyleDistance多語言風格嵌入模型
mStyleDistance是一個多語言風格嵌入模型,旨在將具有相似寫作風格的文本緊密嵌入,而將不同風格的文本嵌入得更遠,不受內容和語言的限制。該模型可用於多語言文本的風格分析、聚類、作者身份識別和驗證任務,以及自動風格遷移評估。
🚀 快速開始
本倉庫包含在論文 mStyleDistance: Multilingual Style Embeddings and their Evaluation 中介紹的模型。此模型是僅支持英語的 StyleDistance 模型的多語言版本。
✨ 主要特性
- 多語言支持:能夠處理多種語言的文本,不受語言限制。
- 風格嵌入:將具有相似寫作風格的文本緊密嵌入,不同風格的文本嵌入得更遠,與內容無關。
- 廣泛應用:可用於多語言文本的風格分析、聚類、作者身份識別和驗證任務,以及自動風格遷移評估。
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
model = SentenceTransformer('StyleDistance/mstyledistance') # 加載模型
input = model.encode("ÉL TIENE PROBLEMAS PARA LOGRAR LA TEMPERATURA ADECUADA PARA COCINAR LA GALLINA CORNISH.")
others = model.encode(["TOCARÁS LA GUITARRA CON TU AMIGO; SERÁ UNA EXCELENTE OPORTUNIDAD PARA MEJORAR TUS HABILIDADES MUSICALES.", "Él tiene problemas para lograr la temperatura adecuada para cocinar la gallina Cornish."])
print(cos_sim(input, others))
示例展示
以下是一些使用該模型進行風格分析的示例:
- 示例1
- 源句子:彼は技術的な複雑さと格闘し、彼の作品は驚くべき視覚的緊張を生み出した。
- 對比句子:
- Serviste mariscos frescos en el condado de Middlesex y áreas circundantes.
- Él sirvió mariscos frescos en el condado de Middlesex y áreas circundantes.
- 示例2
- 源句子:Bien sûr, ils termineront la construction du pont en une semaine.
- 對比句子:
- Oh, you mean when I single-handedly tackled that bespoke headboard project?
- Remember when I completed that bespoke headboard project on my own?
- 示例3
- 源句子:我將使用有限的色調和小尺寸進行像素藝術的簡化和風格化設計。
- 對比句子:
- Я ценю ТТ-пистолет за его огневую мощь; его проникающая способность впечатляет меня.
- 你將使用有限的色調和小尺寸進行像素藝術的簡化和風格化設計。
📚 詳細文檔
訓練數據和變體
mStyleDistance在 mSynthSTEL 上進行對比訓練,這是一個合成生成的數據集,包含約40種風格特徵在9種非英語語言文本中的正負示例。通過利用這個合成數據集,mStyleDistance比目前可用的其他風格嵌入模型能夠實現更強的內容獨立性,並且能夠處理多語言文本。
模型信息
屬性 |
詳情 |
基礎模型 |
FacebookAI/xlm - roberta - base |
訓練數據集 |
StyleDistance/mstyledistance_training_triplets |
庫名稱 |
sentence - transformers |
任務類型 |
特徵提取 |
許可證 |
MIT |
標籤 |
datadreamer, datadreamer - 0.35.0, synthetic, sentence - transformers, feature - extraction, sentence - similarity |
📄 許可證
本模型使用MIT許可證。
📖 引用
如果您使用了該模型,請引用以下論文:
@misc{qiu2025mstyledistancemultilingualstyleembeddings,
title={mStyleDistance: Multilingual Style Embeddings and their Evaluation},
author={Justin Qiu and Jiacheng Zhu and Ajay Patel and Marianna Apidianaki and Chris Callison-Burch},
year={2025},
eprint={2502.15168},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.15168},
}
🔖 訓練信息
本模型使用 DataDreamer 🤖💤 生成的合成數據集進行訓練。合成數據集卡片和模型卡片可在 這裡 找到,訓練參數可在 這裡 找到。
💸 資金致謝
本研究部分得到了國家情報總監辦公室(ODNI)、情報高級研究計劃局(IARPA)通過HIATUS計劃合同 #2022 - 22072200005的支持。本文所包含的觀點和結論僅代表作者本人,不一定代表ODNI、IARPA或美國政府的官方政策,無論是明示還是暗示。美國政府有權為政府目的複製和分發重印本,無論其中的版權聲明如何。