ЁЯЪА Tamil Summarization and English-to-Tamil Translation Model
This repository hosts a fine - tuned model capable of both Tamil summarization and English - to - Tamil translation. Leveraging the Hugging Face Transformers library, this model offers efficient solutions for text processing tasks. This README will guide you through its usage and capabilities.
тЬи Features
- Dual Functionality: The model can perform both Tamil summarization and English - to - Tamil translation.
- Fine - Tuned: It has been fine - tuned on a specific dataset to enhance its performance.
- Multilingual Support: Supports both English and Tamil languages.
ЁЯУж Installation
You can install the necessary dependencies using pip:
pip install transformers
ЁЯТ╗ Usage Examples
Basic Usage
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Translated Tamil Sentence:", translated_text)
prefix = "summarize: "
tamil_article = """роЗродрпБ роХрпБро▒ро┐родрпНродрпБ роЕро╡ро░рпН рокро┐рокро┐роЪро┐ родрооро┐ро┤ро┐роЯроорпН роХрпВро▒рпБроХрпИропро┐ро▓рпН, "роЗродрпНродрпАро░рпНрокрпНрокрпИ рооро┐роХроЪрпН роЪро┐ро▒роирпНрод роорпБро▒рпНрокрпЛроХрпНроХро╛рой родрпАро░рпНрокрпНрокро╛роХ рокро╛ро░рпНроХрпНроХро┐ро▒рпЗройрпН.
роЕроЯро┐рокрпНрокроЯрпИ роЙро░ро┐роорпИ роОройрпНрой роОройрпНрокродрпИ рооро┐роХро╡рпБроорпН родрпАро╡ро┐ро░рооро╛роХ роЗродрпНродрпАро░рпНрокрпНрокрпБ ро╡ро┐ро│роХрпНроХро┐ропрпБро│рпНро│родрпБ" роОройрпНро▒ро╛ро░рпН.
"роЗроирпНродро┐роп роЕро░роЪро┐ропро▓роорпИрокрпНрокро┐ройрпН 21-роЖро╡родрпБ ро╡ро┐родро┐ропрпИ рооро┐роХро╡рпБроорпН роЖро┤рооро╛роХ роирпАродро┐рооройрпНро▒роорпН ро╡ро┐ро│роХрпНроХро┐ропрпБро│рпНро│родрпБ роОройрпНро▒рпБроорпН,
роПро▒рпНроХройро╡рпЗ роЗро░рпБ ро╡рпЗро▒рпБ ро╡ро┤роХрпНроХрпБроХро│ро┐ро▓рпН родройро┐ роирокро░рпН роЕроирпНродро░роЩрпНроХродрпНродрпИ роЕроЯро┐рокрпНрокроЯрпИ роЙро░ро┐роорпИ рокро╛родрпБроХро╛роХрпНроХро╛родрпБ роОройроХрпН роХрпБро▒ро┐рокрпНрокро┐роЯрпНроЯ родрпАро░рпНрокрпНрокрпБроХро│рпИродрпН родро┐ро░рпБродрпНродро┐
роЕроирпНрод роЙро░ро┐роорпИропрпИ родро▒рпНрокрпЛродрпБ роЙроЪрпНроЪ роирпАродро┐рооройрпНро▒роорпН рокро╛родрпБроХро╛родрпНродрпБро│рпНро│родрпБ" роОройрпНро▒рпБ роОройрпН.ро░ро╛роорпН роХрпВро▒ро┐ройро╛ро░рпН.
"роЖродро╛ро░рпН рокродро┐ро╡рпБ ро╡ро┐ро╡роХро╛ро░родрпНродро┐ро▓рпН роЗроирпНрод родрпАро░рпНрокрпНрокрпБ роиро┐роЪрпНроЪропрооро╛роХ рокро┐ро░родро┐рокро▓ро┐роХрпНроХрпБроорпН роОройрпНро▒рпБ роХрпВро▒рпБроорпН роЕро╡ро░рпН, роЖродро╛ро░рпН роорпБро▒рпИропрпИродрпН родро┐рогро┐роХрпНроХ роорпБропро▒рпНроЪро┐роХрпНроХрпБроорпН
роородрпНродро┐роп роЕро░роЪро┐ройрпН роОрогрпНрогроорпН роЗройро┐ роХроЯро┐ройрооро╛роХ роЗро░рпБроХрпНроХрпБроорпН" роОройрпНро▒ро╛ро░рпН. "роирпЖро░рпБроХрпНроХроЯро┐ роХро╛ро▓родрпНродро┐ро▓рпН роирпАродро┐рокродро┐ роОроЪрпН.роЖро░рпН. роХройрпНройро╛ роЕро│ро┐родрпНрод родрпАро░рпНрокрпНрокрпБ роПро▒рпНрокроЯрпБродрпНродро┐роп
рооро╛ро▒рпНро▒родрпНродрпИрокрпН рокрпЛро▓ роЗроирпНродродрпН родрпАро░рпНрокрпНрокрпБроорпН роЪроорпВроХродрпНродро┐ро▓рпН рооро╛ро▒рпНро▒родрпНродрпИ роПро▒рпНрокроЯрпБродрпНродро▓ро╛роорпН роОройрпНро▒рпБ роЪро┐ро▓ро░рпН роХро░рпБродрпБро╡родро╛роХро╡рпБроорпН,роорпКродрпНродродрпНродро┐ро▓рпН роЗродрпБ роТро░рпБ роорпБроХрпНроХро┐ропродрпНродрпБро╡роорпН роиро┐ро▒рпИроирпНрод родрпАро░рпНрокрпНрокро╛роХрпБроорпН"
роОройрпНро▒рпБроорпН роОройрпН.ро░ро╛роорпН родрпЖро░ро┐ро╡ро┐родрпНродро╛ро░рпН. рокро┐ро▒ роЪрпЖропрпНродро┐роХро│рпН : роЪроорпВроХ роКроЯроХроЩрпНроХро│ро┐ро▓рпН┬арокро┐рокро┐роЪро┐┬ародрооро┐ро┤рпН"""
tamil_input_ids = tokenizer.encode(prefix + tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summarized Tamil Text:", summary)
ЁЯУЪ Documentation
Model Details
Model Output
- Translation Tasks: The model outputs translated text in Tamil.
- Summarization Tasks: The model outputs a summarized version of the input Tamil text.
Fine - Tuning
If you want to fine - tune the model on your own dataset, you can follow these steps:
Prepare your dataset in the appropriate format
- For summarization, use the prefix "summarize: ".
- For translation, there is no default prefix. You can directly tokenize the input and tokenize the output using the target text.
Model Performance

ЁЯУД License
This project is licensed under the MIT license.