Roberta Base Ca Cased Sts
模型简介
模型特点
模型能力
使用案例
🚀 加泰罗尼亚语语义文本相似度微调模型(roberta - base - ca - cased - sts)
本项目的模型基于加泰罗尼亚语,对语义文本相似度进行了微调,能够有效评估文本间的相似度,为相关自然语言处理任务提供支持。
🚀 快速开始
要获取模型在 0.0 到 5.0 之间的正确预测分数,请使用以下代码:
from transformers import pipeline, AutoTokenizer
from scipy.special import logit
model = 'projecte-aina/roberta-base-ca-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
def prepare(sentence_pairs):
sentence_pairs_prep = []
for s1, s2 in sentence_pairs:
sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
return sentence_pairs_prep
sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
("M'agrades.", "T'estimo."),
("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]
predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)
# convert back to scores to the original 0 and 5 interval
for prediction in predictions:
prediction['score'] = logit(prediction['score'])
print(predictions)
预期输出:
[{'label': 'SIMILARITY', 'score': 2.118301674983813},
{'label': 'SIMILARITY', 'score': 2.1799755855125853},
{'label': 'SIMILARITY', 'score': 0.9511617858568939}]
⚠️ 重要提示
避免使用小部件的分数,因为它们经过了归一化处理,不能反映原始注释值。
✨ 主要特性
- 针对性微调:roberta - base - ca - cased - sts 是从 roberta - base - ca 模型微调而来的加泰罗尼亚语语义文本相似度(STS)模型。
- 预训练基础良好:基于 RoBERTa 基础模型,该基础模型在从公开可用语料库和爬虫收集的中等规模语料库上进行了预训练。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline, AutoTokenizer
from scipy.special import logit
model = 'projecte-aina/roberta-base-ca-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
def prepare(sentence_pairs):
sentence_pairs_prep = []
for s1, s2 in sentence_pairs:
sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
return sentence_pairs_prep
sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
("M'agrades.", "T'estimo."),
("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]
predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)
# convert back to scores to the original 0 and 5 interval
for prediction in predictions:
prediction['score'] = logit(prediction['score'])
print(predictions)
高级用法
文档未提及高级用法相关代码,故跳过此部分。
📚 详细文档
模型描述
roberta - base - ca - cased - sts 是一个针对加泰罗尼亚语的语义文本相似度(STS)模型,它基于 roberta - base - ca 模型进行微调。roberta - base - ca 是一个 RoBERTa 基础模型,在从公开可用语料库和爬虫收集的中等规模语料库上进行了预训练。
预期用途和限制
roberta - base - ca - cased - sts 模型可用于评估两个文本片段之间的相似度。不过,该模型受其训练数据集的限制,可能无法在所有用例中都有良好的泛化能力。
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。但我们深知,由于语料库是通过在多个网络源上进行爬虫技术收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果研究完成,此模型卡片将进行更新。
训练
训练数据
我们使用了加泰罗尼亚语的 STS 数据集 STS - ca 进行训练和评估。
训练过程
模型以 16 的批量大小和 5e - 5 的学习率训练了 5 个 epoch。然后,我们使用相应开发集上的下游任务指标选择了最佳检查点,最后在测试集上进行了评估。
评估
变量和指标
该模型在微调时最大化了皮尔逊和斯皮尔曼相关性之间的平均分数。
评估结果
我们在 STS - ca 测试集上对 roberta - base - ca - cased - sts 与标准多语言和单语言基线进行了评估:
模型 | STS - ca(皮尔逊分数) |
---|---|
roberta - base - ca - cased - sts | 79.73 |
mBERT | 74.26 |
XLM - RoBERTa | 61.61 |
如需更多详细信息,请查看官方 GitHub 仓库 中的微调与评估脚本。 |
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc - temu@bsc.es)
联系信息
如需进一步信息,请发送电子邮件至 aina@bsc.es
版权
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
资金支持
这项工作由 [加泰罗尼亚政府副主席兼数字和领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架内资助。
引用信息
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。 当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。 在任何情况下,模型的所有者和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。
🔧 技术细节
文档未提及技术细节相关内容,故跳过此章节。
📄 许可证
本项目采用 Apache 许可证,版本 2.0。








