grc-alignment開源多語種詞彙級文本對齊模型 - 免費用於古希臘語與其他語言文本對齊

首頁

Grc Alignment

由UGARIT開發

基於XLM-RoBERTa架構的多語種詞彙級文本對齊模型，專為古希臘語與其他語言的文本對齊任務優化

機器翻譯

Transformers

#古希臘語文本對齊 #多語言詞彙級對齊 #古典文獻處理

下載量 48

發布時間 : 5/7/2022

模型概述

該模型通過預訓練和微調實現古希臘語與多種語言（英語、拉丁語、格魯吉亞語等）的詞彙級文本對齊，適用於古典文獻研究和翻譯對齊任務

模型特點

多語言對齊能力

支持古希臘語與英語、拉丁語、格魯吉亞語等多種語言的詞彙級對齊

專業領域優化

在1200萬單語古希臘語詞彙上預訓練，針對古典文獻特點優化

高質量訓練數據

使用珀爾修斯數字圖書館等權威來源的4.5萬句平行語料進行微調

模型能力

古希臘語-英語文本對齊

古希臘語-拉丁語文本對齊

古希臘語-格魯吉亞語文本對齊

跨語言詞彙級對齊

古典文獻翻譯對齊

使用案例

古典文獻研究

荷馬史詩對齊分析

對《伊利亞特》和《奧德賽》的古希臘語原文與英語翻譯進行詞彙級對齊

對齊錯誤率19.73%（GRC-ENG）

歷史文獻跨語言比對

古希臘歷史學家著作與拉丁語譯本的對齊分析

對齊錯誤率10.60%（GRC-LAT）

數字人文工具

翻譯對齊編輯器集成

為UGARIT翻譯對齊編輯器提供自動對齊功能

支持5種語言組合

🚀 古希臘文本自動翻譯對齊

GRC - ALIGNMENT 模型是一個基於 XLM - RoBERTa 的模型，針對單詞級別的自動多語言文本對齊進行了微調。該模型使用掩碼語言模型（MLM）訓練目標，在 1200 萬個單語古希臘語標記上進行訓練。此外，該模型還在 4.5 萬個平行句子上進行了微調，這些句子主要涉及古希臘語 - 英語、希臘語 - 拉丁語和希臘語 - 格魯吉亞語。

✨ 主要特性

基於 XLM - RoBERTa 架構，專為單詞級別的自動多語言文本對齊設計。
在大量單語古希臘語標記和多種語言的平行句子上進行訓練和微調。

📚 詳細文檔

多語言訓練數據集

語言	句子數量	來源
古希臘語 - 英語	32500	珀爾修斯數字圖書館（《伊利亞特》《奧德賽》、色諾芬著作、《新約》）
古希臘語 - 拉丁語	8200	[古希臘歷史殘篇數字項目](https://www.dfhg - project.org/)
古希臘語 - 格魯吉亞語古希臘語 - 英語古希臘語 - 拉丁語古希臘語 - 意大利語古希臘語 - 葡萄牙語	4000	UGARIT 翻譯對齊編輯器

模型性能

語言對	對齊錯誤率
古希臘語 - 英語	19.73%（IterMax）
古希臘語 - 葡萄牙語	23.91%（IterMax）
古希臘語 - 拉丁語	10.60%（ArgMax）

黃金標準數據集可在 [Github](https://github.com/UgaritAlignment/Alignment - Gold - Standards) 上獲取。

如果您使用此模型，請引用我們的論文：

@InProceedings{yousef-EtAl:2022:LREC,
  author    = {Yousef, Tariq  and  Palladino, Chiara  and  Shamsian, Farnoosh  and  dâ€™Orange Ferreira, Anise  and  Ferreira dos Reis, Michel},
  title     = {An automatic model and Gold Standard for translation alignment of Ancient Greek},
  booktitle      = {Proceedings of the Language Resources and Evaluation Conference},
  month          = {June},
  year           = {2022},
  address        = {Marseille, France},
  publisher      = {European Language Resources Association},
  pages     = {5894--5905},
  url       = {https://aclanthology.org/2022.lrec-1.634}
}

@InProceedings{yousef-EtAl:2022:LT4HALA2022,
  author    = {Yousef, Tariq  and  Palladino, Chiara  and  Wright, David J.  and  Berti, Monica},
  title     = {Automatic Translation Alignment for Ancient Greek and Latin},
  booktitle      = {Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages},
  month          = {June},
  year           = {2022},
  address        = {Marseille, France},
  publisher      = {European Language Resources Association},
  pages     = {101--107},
  url       = {https://aclanthology.org/2022.lt4hala2022-1.14}
}