xlmindic-base-uniscript-soham開源多語言模型 - 優化印歐語處理，支持轉寫文本

首頁

Xlmindic Base Uniscript Soham

由ibraheemmoosa開發

這是一個基於ALBERT架構的多語言模型，專門針對印度-雅利安語系語言進行優化，支持ISO-15919轉寫文本處理。

大型語言模型其他開源協議:Apache-2.0 #ISO15919轉寫 #印度語言多任務處理 #跨語言表示學習

下載量 117

發布時間 : 3/2/2022

模型概述

該模型經過微調，主要用於處理轉寫為ISO-15919格式的印度語言文本，支持多種自然語言處理任務。

模型特點

ISO-15919轉寫支持

模型接受ISO-15919轉寫文本，使不同書寫系統的印度語言能夠統一處理。

多語言能力

支持14種印度-雅利安語系語言的處理，具有跨語言表示學習能力。

高效架構

基於ALBERT架構，參數共享機制使得模型更輕量高效。

IndicGLUE基準表現優異

在多個印度語言處理任務上超越了mBERT、XLM-R等基準模型。

模型能力

文本分類

命名實體識別

掩碼語言建模

跨語言文本處理

印度語言理解

使用案例

新聞分類

孟加拉新聞分類

對孟加拉語新聞文章進行體裁分類

在Soham數據集上達到93.89%準確率

印地語新聞分類

對BBC印地語新聞文章進行分類

達到79.14%準確率

語言理解

跨語言文本處理

處理轉寫為ISO-15919格式的多種印度語言文本

在IndicGLUE基準測試中表現優異

🚀 XLMIndic Base Uniscript

本模型是在Soham孟加拉語新聞分類任務上，基於此模型進行微調得到的，該任務是IndicGLUE基準測試的一部分。在預訓練此模型之前，我們使用Aksharamukha庫將文本音譯為ISO - 15919格式。 你可以在這裡查看Aksharamukha庫的演示，在該演示中你可以對文本進行音譯，並在推理小部件上使用我們的模型。

✨ 主要特性

多語言支持：支持多種印度 - 雅利安語系語言，如阿薩姆語（as）、孟加拉語（bn）等。
音譯處理：採用ISO - 15919音譯方案，便於模型學習跨語言表示。
性能優異：在多個下游任務上取得了較好的評估結果。

📦 安裝指南

要使用此模型，你需要先安裝Aksharamukha庫。

pip install aksharamukha

💻 使用示例

基礎用法

>>> from aksharamukha import transliterate
>>> text = "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
>>> transliterated_text = transliterate.process('autodetect', 'ISO', text)
>>> transliterated_text
"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"

高級用法

>>> from transformers import pipeline
>>> from aksharamukha import transliterate
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
>>> transliterated_text = transliterate.process('Bengali', 'ISO', text)
>>> transliterated_text
'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli [MASK], aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama [MASK] puraskāra lābha karēna.'
>>> unmasker(transliterated_text)
[{'score': 0.39705055952072144,
  'token': 1500,
  'token_str': 'abhinētā',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli abhinētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.20499080419540405,
  'token': 3585,
  'token_str': 'kabi',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.1314290314912796,
  'token': 15402,
  'token_str': 'rājanētā',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli rājanētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.060830358415842056,
  'token': 3212,
  'token_str': 'kalākāra',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kalākāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.035522934049367905,
  'token': 11586,
  'token_str': 'sāhityakāra',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli sāhityakāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'}]

📚 詳細文檔

模型描述

此模型的配置與ALBERT Base v2模型相同。具體而言，該模型具有以下配置：

屬性	詳情
重複層數	12層
嵌入維度	128
隱藏維度	768
注意力頭數	12
參數數量	1100萬
序列長度	512

訓練數據

該模型在Soham數據集上進行了微調，該數據集是IndicGLUE基準測試的一部分。

音譯處理

本模型的獨特之處在於它接受ISO - 15919音譯後的文本。

其背後的動機如下：當兩種語言共享詞彙時，機器學習模型可以利用這一點來學習良好的跨語言表示。然而，如果這兩種語言使用不同的書寫腳本，模型就很難建立聯繫。因此，如果我們能將兩種語言用同一種腳本書寫，模型就更容易學習到良好的跨語言表示。

對於目前使用的許多腳本，都有將其轉換為拉丁腳本的標準音譯方案。特別是對於印度語系的腳本，ISO - 15919音譯方案旨在將用不同印度語系腳本書寫的文本一致地音譯為拉丁腳本。

以下是一段孟加拉語文本的ISO - 15919音譯示例：原文："রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি কবি, ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক।" 音譯後：'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika.'

以下是一段印地語文本的ISO - 15919音譯示例：原文："चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है" 音譯後："cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"

訓練過程

預處理

使用Aksharamukha庫將文本音譯為ISO - 15919格式，然後使用SentencePiece進行分詞，詞彙量大小為50000。

訓練

模型訓練了8個輪次，批次大小為16，學習率為2e - 5。

評估結果

以下是在Soham相關任務上的評估結果：

任務	mBERT	XLM - R	IndicBERT - Base	XLMIndic - Base - Uniscript（本模型）	XLMIndic - Base - Multiscript（消融模型）
維基百科章節標題預測	71.90	65.45	69.40	81.78 ± 0.60	77.17 ± 0.76
文章體裁分類	88.64	96.61	97.72	98.70 ± 0.29	98.30 ± 0.26
命名實體識別（F1分數）	71.29	62.18	56.69	89.85 ± 1.14	83.19 ± 1.58
BBC印地語新聞文章分類	60.55	75.52	74.60	79.14 ± 0.60	77.28 ± 1.50
Soham孟加拉語新聞文章分類	80.23	87.6	78.45	93.89 ± 0.48	93.22 ± 0.49
INLTK古吉拉特語頭條體裁分類	-	-	92.91	90.73 ± 0.75	90.41 ± 0.69
INLTK馬拉地語頭條體裁分類	-	-	94.30	92.04 ± 0.47	92.21 ± 0.23
IITP印地語產品評論情感分類	74.57	78.97	71.32	77.18 ± 0.77	76.33 ± 0.84
IITP印地語電影評論情感分類	56.77	61.61	59.03	66.34 ± 0.16	65.91 ± 2.20
MIDAS印地語語篇類型分類	71.20	79.94	78.44	78.54 ± 0.91	78.39 ± 0.33
完形填空式問答（填空任務）	-	-	37.16	41.54	38.21