Summarization-Tamil Open Source Model - Free Implementation of Tamil Summarization and English-Tamil Translation

Summarization Tamil

Developed by Mr-Vicky-01

A fine-tuned model based on Hugging Face Transformers library, supporting Tamil summarization and English-Tamil translation tasks.

Text Generation

Transformers

Supports Multiple LanguagesOpen Source License:MIT #Tamil Summarization #English-Tamil Translation #Multilingual Generation

Downloads 35

Release Time : 3/24/2024

Model Overview

This model is primarily used for Tamil text summarization and English-to-Tamil translation tasks, fine-tuned on the HariprasathSB/tamil_summarization dataset.

Model Features

Multi-task Support

Supports both Tamil summarization and English-Tamil translation tasks simultaneously.

High-quality Fine-tuning

Fine-tuned on a specialized dataset (HariprasathSB/tamil_summarization) to optimize Tamil language processing capabilities.

Model Capabilities

Tamil summarization generation

English-Tamil translation

Use Cases

Text Processing

Tamil News Summarization

Automatically generates concise summaries from lengthy Tamil news articles.

English Content Localization

Translates English content into Tamil for better understanding by Tamil-speaking users.

🚀 Tamil Summarization and English-to-Tamil Translation Model

This repository hosts a fine - tuned model capable of both Tamil summarization and English - to - Tamil translation. Leveraging the Hugging Face Transformers library, this model offers efficient solutions for text processing tasks. This README will guide you through its usage and capabilities.

✨ Features

Dual Functionality: The model can perform both Tamil summarization and English - to - Tamil translation.
Fine - Tuned: It has been fine - tuned on a specific dataset to enhance its performance.
Multilingual Support: Supports both English and Tamil languages.

📦 Installation

You can install the necessary dependencies using pip:

pip install transformers

💻 Usage Examples

Basic Usage

# Load model directly
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")

# Example English-to-Tamil Translation:

input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Translated Tamil Sentence:", translated_text)

# Example Tamil Summarization:

prefix = "summarize: "
tamil_article = """இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த முற்போக்கான தீர்ப்பாக பார்க்கிறேன்.
அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக இத்தீர்ப்பு விளக்கியுள்ளது" என்றார்.
"இந்திய அரசியலமைப்பின் 21-ஆவது விதியை மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும்,
ஏற்கனவே இரு வேறு வழக்குகளில் தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத் திருத்தி
அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம் கூறினார்.
"ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும்
மத்திய அரசின் எண்ணம் இனி கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த தீர்ப்பு ஏற்படுத்திய
மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும்,மொத்தத்தில் இது ஒரு முக்கியத்துவம் நிறைந்த தீர்ப்பாகும்"
என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக ஊடகங்களில் பிபிசி தமிழ்"""

tamil_input_ids = tokenizer.encode(prefix + tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summarized Tamil Text:", summary)

📚 Documentation

Model Details

Property	Details
Model Name	Mr-Vicky-01/Finetuned_tamil_summarization
Model Type	Summarization, Translation
Framework	Hugging Face Transformers
Original Model	Mr-Vicky-01/Fine_tune_english_to_tamil
Fine - tuning Dataset	HariprasathSB/tamil_summarization
Languages Supported	English, Tamil

Model Output

Translation Tasks: The model outputs translated text in Tamil.
Summarization Tasks: The model outputs a summarized version of the input Tamil text.

Fine - Tuning

If you want to fine - tune the model on your own dataset, you can follow these steps: Prepare your dataset in the appropriate format

For summarization, use the prefix "summarize: ".
For translation, there is no default prefix. You can directly tokenize the input and tokenize the output using the target text.

Model Performance

W&B Chart 23_3_2024, 11_46_59 pm.png

📄 License

This project is licensed under the MIT license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご