IndicBART - XLSumオープンソース要約モデル - インド語のテキスト要約抽出処理に特化

ホーム

Indicbart XLSum

ai4bharatによって開発

IndicBART-XLSumは、多言語独立スクリプトIndicBARTに基づくシーケンス・ツー・シーケンス事前学習モデルで、インド言語に特化しています。

大規模言語モデル

Transformers

その他#インド言語要約 #多言語BARTアーキテクチャ #低計算コスト

ダウンロード数 290

リリース時間 : 5/11/2022

モデル概要

このモデルは7つのインド言語をサポートし、mBARTアーキテクチャに基づいており、主にテキスト要約タスクに使用されます。

モデル特徴

多言語サポート

7つのインド言語をサポートしており、これらの言語はすべてmBART50やmT5ではサポートされていません。

計算効率の高さ

このモデルはmBARTやmT5（ベーシック版）モデルよりもはるかに小さいため、ファインチューニングやデコード時の計算コストが低くなります。

独立スクリプト処理

各言語は独自のスクリプトで記述され、デーヴァナーガリー文字とのスクリプトマッピングを実行する必要がありません。

モデル能力

多言語テキスト要約

シーケンス・ツー・シーケンス生成

使用事例

ニュース要約

インド言語ニュース要約

インド言語のニュース記事を自動的に要約生成します。

🚀 IndicBART-XLSum

IndicBART-XLSumは、インド諸言語に焦点を当てた、マルチリンガルの別スクリプトのIndicBARTベースのシーケンス-to-シーケンス事前学習モデルです。現在は7つのインドの言語をサポートしており、mBARTアーキテクチャに基づいています。

🚀 クイックスタート

IndicBART-XLSumを使用するには、以下のコードを参考にしてください。

from transformers import MBartForConditionalGeneration, AutoModelForSeq2SeqLM
from transformers import AlbertTokenizer, AutoTokenizer

tokenizer = AlbertTokenizer.from_pretrained("ai4bharat/IndicBART-XLSum", do_lower_case=False, use_fast=False, keep_accents=True)

# Or use tokenizer = AlbertTokenizer.from_pretrained("ai4bharat/IndicBART-XLSum", do_lower_case=False, use_fast=False, keep_accents=True)

model = AutoModelForSeq2SeqLM.from_pretrained("ai4bharat/IndicBART-XLSum")

# Or use model = MBartForConditionalGeneration.from_pretrained("ai4bharat/IndicBART-XLSum")

# Some initial mapping
bos_id = tokenizer._convert_token_to_id_with_added_voc("<s>")
eos_id = tokenizer._convert_token_to_id_with_added_voc("</s>")
pad_id = tokenizer._convert_token_to_id_with_added_voc("<pad>")
# To get lang_id use any of ['<2bn>', '<2gu>', '<2hi>', '<2mr>', '<2pa>', '<2ta>', '<2te>']

# First tokenize the input and outputs. The format below is how IndicBART-XLSum was trained so the input should be "Sentence </s> <2xx>" where xx is the language code. Similarly, the output should be "<2yy> Sentence </s>". 

inp = tokenizer("टेसा जॉवल का कहना है कि मृतकों और लापता लोगों के परिजनों की मदद के लिए एक केंद्र स्थापित किया जा रहा है. उन्होंने इस हादसे के तीन के बाद भी मृतकों की सूची जारी करने में हो रही देरी के बारे में स्पष्टीकरण देते हुए कहा है शवों की ठीक पहचान होना ज़रूरी है. पुलिस के अनुसार धमाकों में मारे गए लोगों की संख्या अब 49 हो गई है और अब भी 20 से ज़्यादा लोग लापता हैं. पुलिस के अनुसार लंदन पर हमले योजनाबद्ध तरीके से हुए और भूमिगत रेलगाड़ियों में विस्फोट तो 50 सैकेंड के भीतर हुए. पहचान की प्रक्रिया किंग्स क्रॉस स्टेशन के पास सुरंग में धमाके से क्षतिग्रस्त रेल कोचों में अब भी पड़े शवों के बारे में स्थिति साफ नहीं है और पुलिस ने आगाह किया है कि हताहतों की संख्या बढ़ सकती है. पुलिस, न्यायिक अधिकारियों, चिकित्सकों और अन्य विशेषज्ञों का एक आयोग बनाया गया है जिसकी देख-रेख में शवों की पहचान की प्रक्रिया पूरी होगी. महत्वपूर्ण है कि गुरुवार को लंदन में मृतकों के सम्मान में सार्वजनिक समारोह होगा जिसमें उन्हें श्रद्धाँजलि दी जाएगी और दो मिनट का मौन रखा जाएगा. पुलिस का कहना है कि वह इस्लामी चरमपंथी संगठन अबू हफ़्स अल-मासरी ब्रिगेड्स का इन धमाकों के बारे में किए गए दावे को गंभीरता से ले रही है. 'धमाके पचास सेकेंड में हुए' पुलिस के अनुसार लंदन पर हुए हमले योजनाबद्ध तरीके से किए गए थे. पुलिस के अनुसार भूमिगत रेलों में तीन बम अलग-अलग जगहों लगभग अचानक फटे थे. इसलिए पुलिस को संदेह है कि धमाकों में टाइमिंग उपकरणों का उपयोग किया गया होगा. यह भी तथ्य सामने आया है कि धमाकों में आधुनिक किस्म के विस्फोटकों का उपयोग किया गया था. पहले माना जा रहा था कि हमलों में देसी विस्फोटकों का इस्तेमाल किया गया होगा. पुलिस मुख्यालय स्कॉटलैंड यार्ड में सहायक उपायुक्त ब्रायन पैडिक ने बताया कि भूमिगत रेलों में तीन धमाके 50 सेकेंड के अंतराल के भीतर हुए थे. धमाके गुरुवार सुबह आठ बजकर पचास मिनट पर हुए थे. लंदन अंडरग्राउंड से मिली विस्तृत तकनीकी सूचनाओं से यह तथ्य सामने आया है. इससे पहले बम धमाकों में अच्छे खासे अंतराल की बात की जा रही थी.</s> <2hi>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids

out = tokenizer("<2hi>परिजनों की मदद की ज़िम्मेदारी मंत्री पर </s>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids 
model_outputs=model(input_ids=inp, decoder_input_ids=out[:,0:-1], labels=out[:,1:])

# For loss
model_outputs.loss ## This is not label smoothed.

# For logits
model_outputs.logits

# For generation. Pardon the messiness. Note the decoder_start_token_id.

model.eval() # Set dropouts to zero

model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))


# Decode to get output strings

decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

print(decoded_output) # लंदन धमाकों में मारे गए लोगों की सूची जारी

✨ 主な機能

サポート言語: ベンガル語、グジャラト語、ヒンディー語、マラーティー語、パンジャブ語、タミル語、テルグ語。これらの言語のすべてがmBART50やmT5でサポートされているわけではありません。
軽量モデル: mBARTやmT5(-base)モデルよりもはるかに小さく、ファインチューニングやデコードの際の計算コストが低い。
学習データ: XLSumコーパスのインド部分で学習されています。
スクリプト独立性: 各言語は独自のスクリプトで記述されているため、デーヴァナーガリー文字との間でスクリプトマッピングを行う必要はありません。

📚 ドキュメント

ベンチマーク

IndicBART-XLSumのテストセットでのスコアは以下の通りです。

言語	Rouge-1 / Rouge-2 / Rouge-L
bn	0.172331 / 0.051777 / 0.160245
gu	0.143240 / 0.039993 / 0.133981
hi	0.220394 / 0.065464 / 0.198816
mr	0.172568 / 0.062591 / 0.160403
pa	0.218274 / 0.066087 / 0.192010
ta	0.177317 / 0.058636 / 0.166324
te	0.156386 / 0.041042 / 0.144179
平均	0.180073 / 0.055084 / 0.165137

注意事項

このモデルは最新バージョンのtransformersと互換性がありますが、バージョン4.3.2で開発されているため、可能であれば4.3.2を使用することを検討してください。
ロジットや損失の取得方法、出力の生成方法を示しましたが、MBartForConditionalGenerationクラスでできることはほぼすべて行うことができます。
使用しているトークナイザーはSentencePieceに基づいており、BPEではありません。そのため、AlbertTokenizerクラスを使用しています。