模型概述
模型特點
模型能力
使用案例
🚀 XLMIndic Base Uniscript
本模型是在Soham孟加拉語新聞分類任務上,基於此模型進行微調得到的,該任務是IndicGLUE基準測試的一部分。在預訓練此模型之前,我們使用Aksharamukha庫將文本音譯為ISO - 15919格式。 你可以在這裡查看Aksharamukha庫的演示,在該演示中你可以對文本進行音譯,並在推理小部件上使用我們的模型。
✨ 主要特性
- 多語言支持:支持多種印度 - 雅利安語系語言,如阿薩姆語(as)、孟加拉語(bn)等。
- 音譯處理:採用ISO - 15919音譯方案,便於模型學習跨語言表示。
- 性能優異:在多個下游任務上取得了較好的評估結果。
📦 安裝指南
要使用此模型,你需要先安裝Aksharamukha庫。
pip install aksharamukha
💻 使用示例
基礎用法
>>> from aksharamukha import transliterate
>>> text = "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
>>> transliterated_text = transliterate.process('autodetect', 'ISO', text)
>>> transliterated_text
"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
高級用法
>>> from transformers import pipeline
>>> from aksharamukha import transliterate
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
>>> transliterated_text = transliterate.process('Bengali', 'ISO', text)
>>> transliterated_text
'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli [MASK], aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama [MASK] puraskāra lābha karēna.'
>>> unmasker(transliterated_text)
[{'score': 0.39705055952072144,
'token': 1500,
'token_str': 'abhinētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli abhinētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.20499080419540405,
'token': 3585,
'token_str': 'kabi',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.1314290314912796,
'token': 15402,
'token_str': 'rājanētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli rājanētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.060830358415842056,
'token': 3212,
'token_str': 'kalākāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kalākāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.035522934049367905,
'token': 11586,
'token_str': 'sāhityakāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli sāhityakāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'}]
📚 詳細文檔
模型描述
此模型的配置與ALBERT Base v2模型相同。具體而言,該模型具有以下配置:
屬性 | 詳情 |
---|---|
重複層數 | 12層 |
嵌入維度 | 128 |
隱藏維度 | 768 |
注意力頭數 | 12 |
參數數量 | 1100萬 |
序列長度 | 512 |
訓練數據
該模型在Soham數據集上進行了微調,該數據集是IndicGLUE基準測試的一部分。
音譯處理
本模型的獨特之處在於它接受ISO - 15919音譯後的文本。
其背後的動機如下:當兩種語言共享詞彙時,機器學習模型可以利用這一點來學習良好的跨語言表示。然而,如果這兩種語言使用不同的書寫腳本,模型就很難建立聯繫。因此,如果我們能將兩種語言用同一種腳本書寫,模型就更容易學習到良好的跨語言表示。
對於目前使用的許多腳本,都有將其轉換為拉丁腳本的標準音譯方案。特別是對於印度語系的腳本,ISO - 15919音譯方案旨在將用不同印度語系腳本書寫的文本一致地音譯為拉丁腳本。
以下是一段孟加拉語文本的ISO - 15919音譯示例: 原文:"রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি কবি, ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক।" 音譯後:'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika.'
以下是一段印地語文本的ISO - 15919音譯示例: 原文:"चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है" 音譯後:"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
訓練過程
預處理
使用Aksharamukha庫將文本音譯為ISO - 15919格式,然後使用SentencePiece進行分詞,詞彙量大小為50000。
訓練
模型訓練了8個輪次,批次大小為16,學習率為2e - 5。
評估結果
以下是在Soham相關任務上的評估結果:
任務 | mBERT | XLM - R | IndicBERT - Base | XLMIndic - Base - Uniscript(本模型) | XLMIndic - Base - Multiscript(消融模型) |
---|---|---|---|---|---|
維基百科章節標題預測 | 71.90 | 65.45 | 69.40 | 81.78 ± 0.60 | 77.17 ± 0.76 |
文章體裁分類 | 88.64 | 96.61 | 97.72 | 98.70 ± 0.29 | 98.30 ± 0.26 |
命名實體識別(F1分數) | 71.29 | 62.18 | 56.69 | 89.85 ± 1.14 | 83.19 ± 1.58 |
BBC印地語新聞文章分類 | 60.55 | 75.52 | 74.60 | 79.14 ± 0.60 | 77.28 ± 1.50 |
Soham孟加拉語新聞文章分類 | 80.23 | 87.6 | 78.45 | 93.89 ± 0.48 | 93.22 ± 0.49 |
INLTK古吉拉特語頭條體裁分類 | - | - | 92.91 | 90.73 ± 0.75 | 90.41 ± 0.69 |
INLTK馬拉地語頭條體裁分類 | - | - | 94.30 | 92.04 ± 0.47 | 92.21 ± 0.23 |
IITP印地語產品評論情感分類 | 74.57 | 78.97 | 71.32 | 77.18 ± 0.77 | 76.33 ± 0.84 |
IITP印地語電影評論情感分類 | 56.77 | 61.61 | 59.03 | 66.34 ± 0.16 | 65.91 ± 2.20 |
MIDAS印地語語篇類型分類 | 71.20 | 79.94 | 78.44 | 78.54 ± 0.91 | 78.39 ± 0.33 |
完形填空式問答(填空任務) | - | - | 37.16 | 41.54 | 38.21 |
預期用途與限制
此模型在印度 - 雅利安語系語言上進行了預訓練,因此旨在用於這些語言的下游任務。不過,由於馬拉雅拉姆語、泰盧固語、卡納達語等達羅毗荼語系語言與印度 - 雅利安語系語言有很多共同詞彙,該模型也有可能用於這些語言(需先將文本音譯為ISO - 15919格式)。
你可以將原始模型用於掩碼語言建模或下一句預測,但它主要用於在下游任務上進行微調。你可以在模型中心查找針對你感興趣的任務進行微調後的版本。
請注意,此模型主要旨在針對使用整個句子(可能帶有掩碼)來做決策的任務進行微調,如序列分類、標記分類或問答任務。對於文本生成等任務,你應該考慮使用像GPT2這樣的模型。
侷限性和偏差
儘管我們在相對較大的多語言語料庫上進行了預訓練,但模型仍可能表現出有害的性別、種族和政治偏差。如果你在對這些問題很重要的任務上微調此模型,在依賴模型進行決策時應格外小心。
🔧 技術細節
本模型基於ALBERT架構,通過對輸入的印度語系文本進行ISO - 15919音譯處理,使得模型能夠更好地學習跨語言表示。在訓練過程中,經過預處理和特定的訓練參數設置,在多個下游任務上取得了較好的性能。
📄 許可證
本模型採用Apache - 2.0許可證。
聯繫方式
如果你有任何想法或想了解更多關於我們模型的信息,請隨時聯繫我們:
- Ibraheem Muhammad Moosa (ibraheemmoosa1347@gmail.com)
- Mahmud Elahi Akhter (mahmud.akhter01@northsouth.edu)
- Ashfia Binte Habib
BibTeX引用和引用信息
即將推出!



