アラビア語 - タシキール - フラン - T5 - smallオープンソースモデル - アラビア語テキストに自動的に音声記号を付けて読みやすさを向上させる

ホーム

Arabic Tashkeel Flan T5 Small

Abdouによって開発

このモデルはFLAN-T5スモールモデルをベースに訓練されており、アラビア語テキストに自動的に発音記号（Tashkeel）を追加し、可読性と発音精度を向上させます。

シーケンスラベリング

Transformers

#アラビア語Tashkeel注釈 #宗教テキスト最適化 #FLAN-T5ファインチューニング

ダウンロード数 91

リリース時間 : 10/11/2024

モデル概要

このモデルはアラビア語テキストに発音記号（Tashkeel）を付与するために特別に設計されており、テキストの可読性向上、発音補助、および他のNLPタスク（テキスト読み上げ、言語モデリングなど）の前処理サポートに適しています。

モデル特徴

古典アラビア語最適化

モデルの訓練データには宗教的な古典アラビア語テキストが約90%含まれており、古典アラビア語テキストへの注釈付けに最適です。

複合デコード戦略サポート

ビームサーチデコードとサンプリングデコードの2つの方法をサポートし、温度パラメータを調整することで出力の多様性を制御できます。

軽量モデル

FLAN-T5スモールモデルアーキテクチャをベースとしており、リソースが限られた環境での展開に適しています。

モデル能力

アラビア語テキスト発音記号付与

古典アラビア語テキスト処理

宗教テキスト強化

使用事例

宗教テキスト処理

コーランテキスト注釈

コーランの節に自動的に発音記号を追加

古典アラビア語の変音記号を正確に注釈。例：'قُلْ هُوَ نَبَأٌ عَظِيمٌ'の正しい注釈

ハディーステキスト強化

イスラム教のハディーステキストに発音指導記号を追加

基本的に正確だが、接続詞の注釈が一部不完全な場合がある

教育応用

アラビア語学習補助

学習者に標準的な発音のテキストリファレンスを提供

非ネイティブがアラビア語の発音規則を正しく習得するのを支援

NLP前処理

TTSシステム前処理

テキスト読み上げシステムに発音記号付きの入力テキストを提供

音声合成の発音精度向上に貢献

🚀 アラビア語テキストの自動タシキール付与

このモデルは、アラビア語テキストにタシキール（アラビア語のダイアクリティカル記号）を付与するように訓練されており、読みやすさと発音を向上させます。また、テキスト読み上げ、言語モデリングなどの他のタスクのデータ合成訓練モデルにも役立つ可能性があります。

🚀 クイックスタート

モデルの詳細

このモデルは、GoogleのFLAN - T5 smallモデルをベースに、アラビア語タシキールデータセットで訓練されています。トークナイザーは、同じデータセットのサブセットで訓練されています。

使い方

次のコードを使用して、このモデルをアラビア語テキストにタシキールを付与するために使用できます。

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_path = "Abdou/arabic-tashkeel-flan-t5-small"

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSeq2SeqLM.from_pretrained(model_path)

def vocalize_text(text, model, tokenizer, max_length=256, num_beams=4, temperature=0.2, do_sample=False):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
    model.eval()
    # Tokenize the input text
    inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True, padding="max_length")
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        if do_sample:
            outputs = model.generate(
                **inputs,
                max_length=max_length,
                do_sample=True,
                temperature=temperature,
            )
        else:
            outputs = model.generate(
                **inputs,
                max_length=max_length,
                num_beams=num_beams,
                early_stopping=True
            )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Quran texts
quran_texts = [
    "قل هو نبأ عظيم أنتم عنه معرضون",
    "إنما يخشى الله من عباده العلماء",
    "والله غالب على أمره ولكن أكثر الناس لا يعلمون",
    "وعلم ءادم الأسماء كلها ثم عرضهم على الملائكة فقال أنبؤوني بأسماء هؤلاء إن كنتم صادقين",
    "وإذ قال موسى لقومه يا قوم لم تؤذونني وقد تعلمون أني رسول الله إليكم",
    "ولله يسجد ما في السماوات وما في الارض من دابة والملاءكة وهم لا يستكبرون",
    "الذي أحسن كل شيء خلقه وبدأ خلق الإنسان من طين",
]
# Hadith texts
hadith_texts = [
    "إن الله لا ينظر إلى صوركم وأموالكم ولكن ينظر إلى قلوبكم وأعمالكم",
    "عن أبي ذر جندب بن جنادة، وأبي عبدالرحمن معاذ بن جبل رضي الله عنهما، عن رسول الله ﷺ، قال: اتق الله حيثما كنت وأتبع السيئة الحسنة تمحها، وخالق الناس بخلق حسن . رواه الترمذي وقال: حديث حسن.",
    "المسلم من سلم المسلمون من لسانه ويده",
    "المؤمن القوي خير وأحب إلى الله من المؤمن الضعيف ، وفي كل خير.",
]
# some Arabic texts
arabic_texts = [
    "إنما الأمم الأخلاق ما بقيت فإن هم ذهبت أخلاقهم ذهبوا",
    "يعد من أكبر علماء الأندلس وأكبر علماء الإسلام تصنيفًا وتأليفًا بعد الطبري، وهو إمام حافظ. فقيه ظاهري، ومجدد القول به، بل محيي المذهب بعد زواله في الشرق. ومتكلم وأديب وشاعر ونسّابة وعالم برجال الحديث وناقد محلل بل وصفه البعض بالفيلسوف كما عد من أوائل من قال بكروية الأرض، كما كان وزير سياسي لبني أمية، سلك طريق نبذ التقليد وتحرير الأتباع، قامت عليه جماعة من المالكية وشـُرد عن وطنه. توفي لاحقاً في منزله في أرض أبويه منت ليشم المعروفة بمونتيخار حالياً، وهي عزبة قريبة من ولبة. وأصل جده يزيد فارسي، أسلم وأول من دخل منهم بلاد المغرب، وكانت بلدهم قرطبة فولد ابن حزم بها في سلخ نهاية رمضان من سنة أربع وثمانين وثلاثمائة."
]

texts = [
    ("Quran Texts", quran_texts),
    ("Hadith Texts", hadith_texts),
    ("Arabic Texts", arabic_texts)
]
for title, texts in texts:
    print(f"=============== {title} ===============")
    for text in texts:
        vocalized_result = vocalize_text(text, model, tokenizer)
        print(f"Input: \n{text}")
        print("="*10)
        print(f"Prediction: \n{vocalized_result}")
        print("="*10)

高度な使用法

# デフォルトでは、上記のvocalize_text()関数はビームサーチデコーディング（num_beams = 4）を使用しています。
# do_sample = Trueに設定し、temperatureを0から1の値に設定することでサンプリングを使用できます。

出力:

=============== Quran Texts ===============
Input: 
قل هو نبأ عظيم أنتم عنه معرضون
==========
Prediction: 
قُلْ هُوَ نَبَأٌ عَظِيمٌ أَنْتُمْ عَنْهُ مُعْرِضُونَ
==========
Input: 
إنما يخشى الله من عباده العلماء
==========
Prediction: 
إِنَّمَا يَخْشَى ٱللَّهَ مِنْ عِبَادِهِ ٱلْعُلَمَآءُ
==========
Input: 
والله غالب على أمره ولكن أكثر الناس لا يعلمون
==========
Prediction: 
وَٱللَّهُ غَالِبٌ عَلَىٰٓ أَمْرِهِۦ وَلَٰكِنَّ أَكْثَرَ ٱلنَّاسِ لَا يَعْلَمُونَ
==========
Input: 
وعلم ءادم الأسماء كلها ثم عرضهم على الملائكة فقال أنبؤوني بأسماء هؤلاء إن كنتم صادقين
==========
Prediction: 
وَعَلِّمْ ءَادَمَ ٱلْأَسْمَآءَ كُلَّهَا ثُمَّ عَرَضَهُمْ عَلَى ٱلْمَلاَئِكَةِ فَقَالَ أَنبَؤُونِي بِأَسْمَاءِ هَٰٓؤُلَآءِ إِن كُنتُمْ صَادِقِينَ
==========
Input: 
وإذ قال موسى لقومه يا قوم لم تؤذونني وقد تعلمون أني رسول الله إليكم
==========
Prediction: 
وَإِذْ قَالَ مُوسَىٰ لِقَوْمِهِ يَا قَوْمِ لِمَ تُؤْذُونَنِي وَقَدْ تَعْلَمُونَ أَنِّي رَسُولُ اللَّهِ إِلَيْكُمْ
==========
Input: 
ولله يسجد ما في السماوات وما في الارض من دابة والملاءكة وهم لا يستكبرون
==========
Prediction: 
وَلِلَّهِ يَسْجُدُ مَا فِي السَّمَاوَاتِ وَمَا فِي الْارْضِ مِنْ دَابَّةٍ وَالْمَلَائِكَةُ وَهُمْ لَا يَسْتَكْبِرُونَ
==========
Input: 
الذي أحسن كل شيء خلقه وبدأ خلق الإنسان من طين
==========
Prediction: 
الَّذِي أَحْسَنَ كُلَّ شَيْءٍ خَلْقَهُ وَبَدَأَ خَلْقَ الْإِنْسَانِ مِنْ طِينٍ
==========
=============== Hadith Texts ===============
Input: 
إن الله لا ينظر إلى صوركم وأموالكم ولكن ينظر إلى قلوبكم وأعمالكم
==========
Prediction: 
إِنَّ اللَّهَ لَا يَنْظُرُ إِلَىٰ صُوَرِكُمْ وَأَمْوَالِكُمْ وَلَكِنْ يَنْظُرُ إِلَىٰ قُلُوبِكُمْ وَأَعْمَالِكُمْ
==========
Input: 
عن أبي ذر جندب بن جنادة، وأبي عبدالرحمن معاذ بن جبل رضي الله عنهما، عن رسول الله ﷺ، قال: اتق الله حيثما كنت وأتبع السيئة الحسنة تمحها، وخالق الناس بخلق حسن . رواه الترمذي وقال: حديث حسن.
==========
Prediction: 
عَنْ أَبِي ذَرٍّ جُنْدُبِ بْنِ جُنَادَةَ، وَأَبِي عَبْدِالرَّحْمَنِ مُعَاذِ بْنِ جَبَلٍ رَضِيَ اللَّهُ عَنْهُمَا، عَنْ رَسُولِ اللَّهِ صَلَّى اللَّهُ عَلَيْهِ وَسَلَّمَ، قَالَ: اتَّقِ اللَّهَ حَيْثُمَا كُنْتَ وَأَتْبِعِ السَّيِّئَةَ الْحَسَنَةَ تَمْحُهَا، وَخَالِقِ النَّاسَ بِخُلُقٍ حَسَنٍ . رَوَاهُ التِّرْمِذِيُّ وَقَالَ: حَدِيثٌ حَسَنٌ.
==========
Input: 
المسلم من سلم المسلمون من لسانه ويده
==========
Prediction: 
الْمُسْلِمُ مَنْ سَلِمَ الْمُسْلِمُونَ مِنْ لِسَانِهِ وَيَدِهِ
==========
Input: 
المؤمن القوي خير وأحب إلى الله من المؤمن الضعيف ، وفي كل خير.
==========
Prediction: 
الْمُؤْمِنُ الْقَوِيُّ خَيْرٌ وَأَحَبُّ إِلَى اللَّهِ مِنَ الْمُؤْمِنِ الضَّعِيفِ ، وَفِي كُلِّ خَيْرٍ.
==========
=============== Arabic Texts ===============
Input: 
إنما الأمم الأخلاق ما بقيت فإن هم ذهبت أخلاقهم ذهبوا
==========
Prediction: 
إِنَّمَا الأُمَمُ الأَخْلاقُ مَا بَقِيَتْ فَإِنْ هُمْ ذَهَبَتْ أَخْلاقُهُمْ ذَهَبُوا
==========
Input: 
يعد من أكبر علماء الأندلس وأكبر علماء الإسلام تصنيفًا وتأليفًا بعد الطبري، وهو إمام حافظ. فقيه ظاهري، ومجدد القول به، بل محيي المذهب بعد زواله في الشرق. ومتكلم وأديب وشاعر ونسّابة وعالم برجال الحديث وناقد محلل بل وصفه البعض بالفيلسوف كما عد من أوائل من قال بكروية الأرض، كما كان وزير سياسي لبني أمية، سلك طريق نبذ التقليد وتحرير الأتباع، قامت عليه جماعة من المالكية وشـُرد عن وطنه. توفي لاحقاً في منزله في أرض أبويه منت ليشم المعروفة بمونتيخار حالياً، وهي عزبة قريبة من ولبة. وأصل جده يزيد فارسي، أسلم وأول من دخل منهم بلاد المغرب، وكانت بلدهم قرطبة فولد ابن حزم بها في سلخ نهاية رمضان من سنة أربع وثمانين وثلاثمائة.
==========
Prediction: 
يُعَدُّ مِنْ أَكْبَرِ عُلَمَاءِ الْأَنْدَلُسِ وَأَكْبَرِ عُلَمَاءِ الْإِسْلَامِ تَصْنِيفًا وَتَأْلِيفًا بَعْدَ الطَّبَرِيِّ، وَهُوَ إِمَامٌ حَافِظٌ. فَقِيهٌ ظَاهِرِيٌّ، وَمُجَدِّدُ الْقَوْلِ بِهِ، بَلْ مُحْيِي الْمَذْهَبِ بَعْدَ زَوَالِهِ فِي الشَّرْقِ. وَمُتَكَلِّمٌ وَأَدِيبٌ وَشَاعِرٌ وَنَسَّابَةٌ وَعَالِمٌ بِرِجَالِ الْحَدِيثِ وَنَاقِدٌ مُحَلَّلٌ بَلْ وَصَفَهُ الْبَعْضُ بِالْفَيْلَسُوفِ كَمَا عُدَّ مِنْ أَوَائِلِ مَنْ قَالَ بِكُرَوِيَّةِ الْأَرْضِ، كَمَا كَانَ وَزِيرٌ سِيَاسِيٌّ لِبَنِي أُمَيَّةَ، سَلَكَ طَرِيقَ نَبْذِ التَّقْلِيدِ وَتَحْرِيرَ الْأَتْبَاعِ، قَامَتْ عَلَيْهِ جَمَاعَةٌ مِنَ الْمَالِكِيَّةِ وَشَـرُّدٌ عَنْ وَطَنِهِ. تُوُفِّيَ لَاحِقًا فِي مَنْزِلِهِ فِي أَرْضِ أَبَوَيْهِ مُنْتَ لِيَشُمَّ الْمَعْرُوفَةَ بِمُونتِيخَارٍ حَالِيًّا، وَهِيَ عَزْبَةٌ قَرِيبَةٌ مِنْ وَلُبَّةٍ. وَأَصْلُ جَدِّهِ يَزِيدُ فَارِسِيٌّ، أَسْلَمَ وَأَوَّلُ مَنْ دَخَلَ مِنْهُمْ بِلَادَ الْمَغْرِبِ، وَكَانَتْ بَلَدُهُمْ قُرْطُبَةَ فَوُلِدَ ابْنُ حَزْمٍ بِهَا فِي سَلْخِ نِهَايَةِ رَمَضَانَ مِنْ سَنَةِ أَرْبَعٍ وَثَمَانِينَ وَثَلَاثِمِائَةٍ.
==========

ご覧のとおり、このモデルはほとんど正確ですが、وَعَلِّمْ の代わりに وَعَلَّمَ など、いくつかの誤りを犯す可能性があります。