inclusively-reformulation-it5開源模型 - 免費部署實現意大利語包容性語言改寫

首頁

Inclusively Reformulation It5

由E-MIMIC開發

基於IT5-large微調的意大利語序列到序列模型，專為包容性語言改寫任務設計

機器翻譯

Transformers

#意大利語改寫 #包容性語言 #序列到序列

下載量 70

發布時間 : 6/23/2023

模型概述

該模型能夠分析並改寫意大利語句子，使其更具包容性。例如將性別特定表達改寫為中性表達。

模型特點

包容性改寫

能夠將非包容性表達自動改寫為包容性表達

專業訓練數據

使用專家標註的4705對句子進行訓練，確保改寫質量

合成數據增強

結合規則生成的合成數據提高模型性能

模型能力

意大利語文本改寫

包容性語言轉換

性別中性表達生成

使用案例

正式文件寫作

學術文件改寫

將學術文件中的性別特定表達改寫為中性表達

如將'教授們'改寫為'教學人員'

企業文件改寫

使企業官方文件更具包容性

內容創作

新聞寫作

幫助新聞工作者創作更具包容性的內容

🚀 包容性改寫模型

本模型是一個意大利語的序列到序列模型，它基於 IT5-large 進行微調，用於包容性語言改寫任務。

該模型經過訓練，能夠分析並改寫意大利語句子，使其更具包容性（如有需要）。

例如，句子 I professori devono essere preparati（教授們必須做好準備）會被改寫為 Il personale docente deve essere preparato（教學人員必須做好準備）。

📦 訓練數據

該模型在一個包含總共 4705 對句子的數據集上進行訓練，每對句子包含一個具有包容性的句子和一個不具有包容性的句子。數據集劃分如下：

訓練集：3764 對
驗證集：470 對
測試集：471 對

我們還利用了一小部分合成數據（使用一組規則生成）來提高模型在測試集上的性能。因此，訓練總共使用了 3764 + 75 = 3839 對數據。

數據收集工作由包容性語言領域的專家進行手動標註（數據集目前尚未公開）。

🔧 訓練過程

該模型基於意大利語 BERT 模型進行微調，使用了以下超參數：

max_length：128
batch_size：8
learning_rate：5e - 5
warmup_steps：500
epochs：25（根據驗證集的 BLEU 分數選擇最佳模型）
optimizer：AdamW

📊 評估結果

該模型在測試集上進行了評估，得到以下結果：

模型	BLEU	ROUGE - 2 F1	人工完全正確	人工部分正確 (L)	人工錯誤 (L)
IT5（無合成數據）	80.32	87.17	64.76	15.71	19.52
本模型	80.79	87.47	69.52	17.14	13.22

指標中的 (L) 表示“數值越低越好”。與未使用合成數據的同一版本模型進行比較，結果表明合成數據有助於提高模型在測試集上的性能。其他比較結果可在論文中找到。

📄 引用

如果您使用此模型，請確保引用以下論文：

主論文：

@article{10.1145/3729237,
author = {Greco, Salvatore and La Quatra, Moreno and Cagliero, Luca and Cerquitelli, Tania},
title = {Towards AI-Assisted Inclusive Language Writing in Italian Formal Communications},
year = {2025},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
issn = {2157-6904},
url = {https://doi.org/10.1145/3729237},
doi = {10.1145/3729237},
note = {Just Accepted},
journal = {ACM Trans. Intell. Syst. Technol.},
month = apr,
}

演示論文：

@InProceedings{PKDD23_inclusively,
author="La Quatra, Moreno
and Greco, Salvatore
and Cagliero, Luca
and Cerquitelli, Tania",
title="Inclusively: An AI-Based Assistant for Inclusive Writing",
booktitle="Machine Learning and Knowledge Discovery in Databases: Applied Data Science and Demo Track",
year="2023",
publisher="Springer Nature Switzerland",
address="Cham",
pages="361--365",
isbn="978-3-031-43430-3",
doi="10.1007/978-3-031-43430-3_31"
}

本模型採用的許可證為：CC - BY - NC - SA 4.0。