🚀 タミル語要約と英語からタミル語への翻訳モデル
このリポジトリには、タミル語の要約と英語からタミル語への翻訳の両方に対応したファインチューニング済みモデルが含まれています。このモデルはHugging Face Transformersライブラリを使用してファインチューニングされています。このREADMEでは、モデルの使用方法と機能について説明します。
🚀 クイックスタート
このモデルを使用するには、まず必要な依存関係をインストールし、その後モデルをロードして要約や翻訳タスクを実行することができます。
✨ 主な機能
- タミル語の文章を要約することができます。
- 英語の文章をタミル語に翻訳することができます。
📦 インストール
必要な依存関係をpipを使ってインストールすることができます。
pip install transformers
💻 使用例
基本的な使用法
以下は、要約と翻訳タスクの両方でモデルを使用する方法の例です。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Translated Tamil Sentence:", translated_text)
prefix = "summarize: "
tamil_article = """இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த முற்போக்கான தீர்ப்பாக பார்க்கிறேன்.
அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக இத்தீர்ப்பு விளக்கியுள்ளது" என்றார்.
"இந்திய அரசியலமைப்பின் 21-ஆவது விதியை மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும்,
ஏற்கனவே இரு வேறு வழக்குகளில் தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத் திருத்தி
அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம் கூறினார்.
"ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும்
மத்திய அரசின் எண்ணம் இனி கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த தீர்ப்பு ஏற்படுத்திய
மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும்,மொத்தத்தில் இது ஒரு முக்கியத்துவம் நிறைந்த தீர்ப்பாகும்"
என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக ஊடகங்களில் பிபிசி தமிழ்"""
tamil_input_ids = tokenizer.encode(prefix + tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summarized Tamil Text:", summary)
📚 ドキュメント
モデルの詳細
モデルの出力
- 翻訳タスクでは、モデルはタミル語の翻訳テキストを出力します。
- 要約タスクでは、モデルは入力されたタミル語の文章の要約を出力します。
ファインチューニング
独自のデータセットでモデルをファインチューニングしたい場合は、以下の手順に従ってください。
データセットを適切な形式で準備します。
- 要約の場合は、接頭辞として "summarize: " を使用します。
- 翻訳の場合は、デフォルトで接頭辞は不要で、入力をトークン化し、出力をターゲットテキストを使ってトークン化することができます。
モデルのパフォーマンス

📄 ライセンス
このモデルはMITライセンスの下で提供されています。