🚀 句子轉換器模型
本項目是一個句子轉換器模型,它能夠將句子和段落映射到768維的密集向量空間,可用於聚類或語義搜索等任務。
🚀 快速開始
安裝依賴
若要使用此模型,需先安裝sentence-transformers
庫:
pip install -U sentence-transformers
代碼示例
以下是使用該模型的示例代碼:
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer('dariolopez/roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn')
corpus = [
"Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769-Longwood, 5 de mayo de 1821) fue un militar y estadista francés, general republicano durante la Revolución francesa y el Directorio, y artífice del golpe de Estado del 18 de brumario que lo convirtió en primer cónsul (Premier Consul) de la República el 11 de noviembre de 1799.",
"Luis XVI de Francia (en francés: Louis XVI; Versalles, 23 de agosto de 1754 – París, 21 de enero de 1793) fue rey de Francia y de Navarra4 entre 1774 y 1789, copríncipe de Andorra entre 1774 y 1793, y rey de los franceses3 entre 1789 y 1792.2 Fue el último monarca antes de la caída de la monarquía por la Revolución Francesa, así como el último que ejerció sus poderes de monarca absoluto.",
"Felipe VI de España (Madrid, 30 de enero de 1968) es el actual rey de España, título por el que ostenta la jefatura del Estado y el mando supremo de las Fuerzas Armadas, desde el 19 de junio de 2014, fecha en que ascendió al trono por la abdicación de su padre, el rey Juan Carlos I.",
"Lionel Andrés Messi Cuccittini (Rosario, 24 de junio de 1987), conocido como Leo Messi, es un futbolista argentino que juega como delantero o centrocampista. Jugador histórico del Fútbol Club Barcelona, al que estuvo ligado veinte años, desde 2021 integra el plantel del Paris Saint-Germain de la Ligue 1 de Francia. Es también internacional con la selección de Argentina, equipo del que es capitán."
]
query = "Listar aquellos personajes que tuvieron poder en Francia"
corpus_embeddings = model.encode(corpus)
query_embedding = model.encode(query)
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=2)[0]
for hit in hits:
print(f"corpus_id: {hit['corpus_id']}, score: {hit['score']}, text: {corpus[hit['corpus_id']][0:100]}...")
✨ 主要特性
📦 安裝指南
安裝依賴庫:
pip install -U sentence-transformers
📚 詳細文檔
訓練信息
訓練後的模型是 PlanTL-GOB-ES/roberta-base-bne 的微調版本,使用 翻譯為西班牙語的MS - MARCO數據集(查詢 - 正樣本 - 負樣本 - 負樣本 - 負樣本 - 負樣本)進行問答任務的訓練。
配置信息
以下是訓練時使用的配置:
{
"model_name": "PlanTL-GOB-ES/roberta-base-bne",
"max_seq_length": 512,
"epochs": 10,
"warmup_steps": 1000,
"batch_size": 16,
"optimizer_params": {
"lr": 2e-05
},
"loss": "mnrl",
"dataset_train_size": 481335,
"dataset_name": "IIC/ms_marco_es",
"seed": 42,
"length_embedding": 768
}
訓練源代碼
訓練的源代碼可在 此處 查看。
🔧 技術細節
輸入長度限制
默認情況下,輸入文本超過512個詞片時會被截斷。
📄 許可證
本項目採用 Apache許可證2.0版 進行許可。