サマライゼーション - タミル語オープンソースモデル - タミル語の要約生成と英語

ホーム

Summarization Tamil

Mr-Vicky-01によって開発

Hugging Face Transformersライブラリをファインチューニングしたモデルで、タミル語の要約生成と英語-タミル語翻訳タスクをサポートします。

テキスト生成

Transformers

複数言語対応オープンソースライセンス:MIT #タミル語要約 #英語-タミル語翻訳 #多言語生成

ダウンロード数 35

リリース時間 : 3/24/2024

モデル概要

このモデルは主にタミル語テキストの要約生成と英語からタミル語への翻訳タスクに使用され、HariprasathSB/tamil_summarizationデータセットでファインチューニングされています。

モデル特徴

マルチタスクサポート

タミル語要約生成と英語-タミル語翻訳の2つのタスクを同時にサポートします。

高品質なファインチューニング

専用データセット(HariprasathSB/tamil_summarization)でファインチューニングされており、タミル語処理能力が最適化されています。

モデル能力

タミル語要約生成

英語-タミル語翻訳

使用事例

テキスト処理

タミル語ニュース要約

長文のタミル語ニュース記事を自動的に簡潔な要約に生成します。

英語コンテンツのローカライズ

英語コンテンツをタミル語に翻訳し、タミル語ユーザーが理解しやすくします。

🚀 タミル語要約と英語からタミル語への翻訳モデル

このリポジトリには、タミル語の要約と英語からタミル語への翻訳の両方に対応したファインチューニング済みモデルが含まれています。このモデルはHugging Face Transformersライブラリを使用してファインチューニングされています。このREADMEでは、モデルの使用方法と機能について説明します。

🚀 クイックスタート

このモデルを使用するには、まず必要な依存関係をインストールし、その後モデルをロードして要約や翻訳タスクを実行することができます。

✨ 主な機能

タミル語の文章を要約することができます。
英語の文章をタミル語に翻訳することができます。

📦 インストール

必要な依存関係をpipを使ってインストールすることができます。

pip install transformers

💻 使用例

基本的な使用法

以下は、要約と翻訳タスクの両方でモデルを使用する方法の例です。

# モデルを直接ロード
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")

# 英語からタミル語への翻訳の例:

input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Translated Tamil Sentence:", translated_text)

# タミル語の要約の例:

prefix = "summarize: "
tamil_article = """இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த முற்போக்கான தீர்ப்பாக பார்க்கிறேன்.
அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக இத்தீர்ப்பு விளக்கியுள்ளது" என்றார்.
"இந்திய அரசியலமைப்பின் 21-ஆவது விதியை மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும்,
ஏற்கனவே இரு வேறு வழக்குகளில் தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத் திருத்தி
அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம் கூறினார்.
"ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும்
மத்திய அரசின் எண்ணம் இனி கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த தீர்ப்பு ஏற்படுத்திய
மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும்,மொத்தத்தில் இது ஒரு முக்கியத்துவம் நிறைந்த தீர்ப்பாகும்"
என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக ஊடகங்களில் பிபிசி தமிழ்"""

tamil_input_ids = tokenizer.encode(prefix + tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summarized Tamil Text:", summary)

📚 ドキュメント

モデルの詳細

属性	详情
モデル名	Mr-Vicky-01/Finetuned_tamil_summarization
モデルタイプ	要約、翻訳
フレームワーク	Hugging Face Transformers
元のモデル	Mr-Vicky-01/Fine_tune_english_to_tamil
ファインチューニングデータセット	HariprasathSB/tamil_summarization
サポート言語	英語、タミル語