ЁЯЪА Tamil Summarization and English-to-Tamil Translation Model
This repository offers a fine - tuned model for Tamil summarization and English - to - Tamil translation, leveraging the Hugging Face Transformers library.
ЁЯЪА Quick Start
This README provides guidance on using the model and understanding its capabilities.
тЬи Features
- Capable of both Tamil summarization and English - to - Tamil translation.
- Fine - tuned using the Hugging Face Transformers library.
ЁЯУж Installation
You can install the necessary dependencies using pip:
pip install transformers
ЁЯТ╗ Usage Examples
Basic Usage
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("suriya7/Tamil-Summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("suriya7/Tamil-Summarization")
input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Translated Tamil Sentence:", translated_text)
tamil_article = """роЗродрпБ роХрпБро▒ро┐родрпНродрпБ роЕро╡ро░рпН рокро┐рокро┐роЪро┐ родрооро┐ро┤ро┐роЯроорпН роХрпВро▒рпБроХрпИропро┐ро▓рпН, "роЗродрпНродрпАро░рпНрокрпНрокрпИ рооро┐роХроЪрпН роЪро┐ро▒роирпНрод роорпБро▒рпНрокрпЛроХрпНроХро╛рой родрпАро░рпНрокрпНрокро╛роХ рокро╛ро░рпНроХрпНроХро┐ро▒рпЗройрпН.
роЕроЯро┐рокрпНрокроЯрпИ роЙро░ро┐роорпИ роОройрпНрой роОройрпНрокродрпИ рооро┐роХро╡рпБроорпН родрпАро╡ро┐ро░рооро╛роХ роЗродрпНродрпАро░рпНрокрпНрокрпБ ро╡ро┐ро│роХрпНроХро┐ропрпБро│рпНро│родрпБ" роОройрпНро▒ро╛ро░рпН.
"роЗроирпНродро┐роп роЕро░роЪро┐ропро▓роорпИрокрпНрокро┐ройрпН 21-роЖро╡родрпБ ро╡ро┐родро┐ропрпИ рооро┐роХро╡рпБроорпН роЖро┤рооро╛роХ роирпАродро┐рооройрпНро▒роорпН ро╡ро┐ро│роХрпНроХро┐ропрпБро│рпНро│родрпБ роОройрпНро▒рпБроорпН,
роПро▒рпНроХройро╡рпЗ роЗро░рпБ ро╡рпЗро▒рпБ ро╡ро┤роХрпНроХрпБроХро│ро┐ро▓рпН родройро┐ роирокро░рпН роЕроирпНродро░роЩрпНроХродрпНродрпИ роЕроЯро┐рокрпНрокроЯрпИ роЙро░ро┐роорпИ рокро╛родрпБроХро╛роХрпНроХро╛родрпБ роОройроХрпН роХрпБро▒ро┐рокрпНрокро┐роЯрпНроЯ родрпАро░рпНрокрпНрокрпБроХро│рпИродрпН родро┐ро░рпБродрпНродро┐
роЕроирпНрод роЙро░ро┐роорпИропрпИ родро▒рпНрокрпЛродрпБ роЙроЪрпНроЪ роирпАродро┐рооройрпНро▒роорпН рокро╛родрпБроХро╛родрпНродрпБро│рпНро│родрпБ" роОройрпНро▒рпБ роОройрпН.ро░ро╛роорпН роХрпВро▒ро┐ройро╛ро░рпН.
"роЖродро╛ро░рпН рокродро┐ро╡рпБ ро╡ро┐ро╡роХро╛ро░родрпНродро┐ро▓рпН роЗроирпНрод родрпАро░рпНрокрпНрокрпБ роиро┐роЪрпНроЪропрооро╛роХ рокро┐ро░родро┐рокро▓ро┐роХрпНроХрпБроорпН роОройрпНро▒рпБ роХрпВро▒рпБроорпН роЕро╡ро░рпН, роЖродро╛ро░рпН роорпБро▒рпИропрпИродрпН родро┐рогро┐роХрпНроХ роорпБропро▒рпНроЪро┐роХрпНроХрпБроорпН
роородрпНродро┐роп роЕро░роЪро┐ройрпН роОрогрпНрогроорпН роЗройро┐ роХроЯро┐ройрооро╛роХ роЗро░рпБроХрпНроХрпБроорпН" роОройрпНро▒ро╛ро░рпН. "роирпЖро░рпБроХрпНроХроЯро┐ роХро╛ро▓родрпНродро┐ро▓рпН роирпАродро┐рокродро┐ роОроЪрпН.роЖро░рпН. роХройрпНройро╛ роЕро│ро┐родрпНрод родрпАро░рпНрокрпНрокрпБ роПро▒рпНрокроЯрпБродрпНродро┐роп
рооро╛ро▒рпНро▒родрпНродрпИрокрпН рокрпЛро▓ роЗроирпНродродрпН родрпАро░рпНрокрпНрокрпБроорпН роЪроорпВроХродрпНродро┐ро▓рпН рооро╛ро▒рпНро▒родрпНродрпИ роПро▒рпНрокроЯрпБродрпНродро▓ро╛роорпН роОройрпНро▒рпБ роЪро┐ро▓ро░рпН роХро░рпБродрпБро╡родро╛роХро╡рпБроорпН,роорпКродрпНродродрпНродро┐ро▓рпН роЗродрпБ роТро░рпБ роорпБроХрпНроХро┐ропродрпНродрпБро╡роорпН роиро┐ро▒рпИроирпНрод родрпАро░рпНрокрпНрокро╛роХрпБроорпН"
роОройрпНро▒рпБроорпН роОройрпН.ро░ро╛роорпН родрпЖро░ро┐ро╡ро┐родрпНродро╛ро░рпН. рокро┐ро▒ роЪрпЖропрпНродро┐роХро│рпН : роЪроорпВроХ роКроЯроХроЩрпНроХро│ро┐ро▓рпН┬арокро┐рокро┐роЪро┐┬ародрооро┐ро┤рпН"""
tamil_input_ids = tokenizer.encode(tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summarized Tamil Text:", summary)
ЁЯУЪ Documentation
Model Details
Model Output
- For translation tasks, the model outputs translated text in Tamil.
- For summarization tasks, the model outputs a summarized version of the input Tamil text.
Fine - Tuning
If you want to fine - tune the model on your own dataset, you can follow these steps:
Prepare your dataset in the appropriate format
- for summarization use prefix as "summarize: "
- for translation default no prefix, directely u can tokenize the input and tokenize the output using target_text
Model Performance

ЁЯУД License
This project is licensed under the Apache - 2.0 license.