Roberta Base Ca Cased Sts
模型概述
模型特點
模型能力
使用案例
🚀 加泰羅尼亞語語義文本相似度微調模型(roberta - base - ca - cased - sts)
本項目的模型基於加泰羅尼亞語,對語義文本相似度進行了微調,能夠有效評估文本間的相似度,為相關自然語言處理任務提供支持。
🚀 快速開始
要獲取模型在 0.0 到 5.0 之間的正確預測分數,請使用以下代碼:
from transformers import pipeline, AutoTokenizer
from scipy.special import logit
model = 'projecte-aina/roberta-base-ca-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
def prepare(sentence_pairs):
sentence_pairs_prep = []
for s1, s2 in sentence_pairs:
sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
return sentence_pairs_prep
sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
("M'agrades.", "T'estimo."),
("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]
predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)
# convert back to scores to the original 0 and 5 interval
for prediction in predictions:
prediction['score'] = logit(prediction['score'])
print(predictions)
預期輸出:
[{'label': 'SIMILARITY', 'score': 2.118301674983813},
{'label': 'SIMILARITY', 'score': 2.1799755855125853},
{'label': 'SIMILARITY', 'score': 0.9511617858568939}]
⚠️ 重要提示
避免使用小部件的分數,因為它們經過了歸一化處理,不能反映原始註釋值。
✨ 主要特性
- 針對性微調:roberta - base - ca - cased - sts 是從 roberta - base - ca 模型微調而來的加泰羅尼亞語語義文本相似度(STS)模型。
- 預訓練基礎良好:基於 RoBERTa 基礎模型,該基礎模型在從公開可用語料庫和爬蟲收集的中等規模語料庫上進行了預訓練。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline, AutoTokenizer
from scipy.special import logit
model = 'projecte-aina/roberta-base-ca-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
def prepare(sentence_pairs):
sentence_pairs_prep = []
for s1, s2 in sentence_pairs:
sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
return sentence_pairs_prep
sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
("M'agrades.", "T'estimo."),
("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]
predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)
# convert back to scores to the original 0 and 5 interval
for prediction in predictions:
prediction['score'] = logit(prediction['score'])
print(predictions)
高級用法
文檔未提及高級用法相關代碼,故跳過此部分。
📚 詳細文檔
模型描述
roberta - base - ca - cased - sts 是一個針對加泰羅尼亞語的語義文本相似度(STS)模型,它基於 roberta - base - ca 模型進行微調。roberta - base - ca 是一個 RoBERTa 基礎模型,在從公開可用語料庫和爬蟲收集的中等規模語料庫上進行了預訓練。
預期用途和限制
roberta - base - ca - cased - sts 模型可用於評估兩個文本片段之間的相似度。不過,該模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化能力。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。但我們深知,由於語料庫是通過在多個網絡源上進行爬蟲技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果研究完成,此模型卡片將進行更新。
訓練
訓練數據
我們使用了加泰羅尼亞語的 STS 數據集 STS - ca 進行訓練和評估。
訓練過程
模型以 16 的批量大小和 5e - 5 的學習率訓練了 5 個 epoch。然後,我們使用相應開發集上的下游任務指標選擇了最佳檢查點,最後在測試集上進行了評估。
評估
變量和指標
該模型在微調時最大化了皮爾遜和斯皮爾曼相關性之間的平均分數。
評估結果
我們在 STS - ca 測試集上對 roberta - base - ca - cased - sts 與標準多語言和單語言基線進行了評估:
模型 | STS - ca(皮爾遜分數) |
---|---|
roberta - base - ca - cased - sts | 79.73 |
mBERT | 74.26 |
XLM - RoBERTa | 61.61 |
如需更多詳細信息,請查看官方 GitHub 倉庫 中的微調與評估腳本。 |
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc - temu@bsc.es)
聯繫信息
如需進一步信息,請發送電子郵件至 aina@bsc.es
版權
版權所有 (c) 2022 巴塞羅那超級計算中心文本挖掘單元
許可信息
資金支持
這項工作由 [加泰羅尼亞政府副主席兼數字和領土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架內資助。
引用信息
如果您在工作中使用了這些資源(數據集或模型),請引用我們的最新論文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。 當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。 在任何情況下,模型的所有者和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。
🔧 技術細節
文檔未提及技術細節相關內容,故跳過此章節。
📄 許可證
本項目採用 Apache 許可證,版本 2.0。








