romaneng2nep_v3オープンソースモデル - ローマ字化ネパール語からネパール語への簡単な変換を無料で実現

ホーム

Romaneng2nep V3

syubrajによって開発

このモデルはgoogle/mt5-smallをファインチューニングした、ローマ字表記のネパール語からネパール語テキストへの変換モデルです

機械翻訳

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ローマ字からネパール語への変換 #多言語音訳 #MT5ファインチューニング

ダウンロード数 29

リリース時間 : 10/9/2024

モデル概要

ローマ字表記のネパール語をネパール語テキストに変換するためのシーケンス・ツー・シーケンスモデルで、MT5アーキテクチャをベースにファインチューニングされています

モデル特徴

多言語サポート

ネパール語と英語間の変換をサポート

効率的なファインチューニング

事前学習済みのMT5-smallモデルをベースに効率的にファインチューニング

軽量

smallバージョンのモデルはリソースが限られた環境での展開に適しています

モデル能力

ローマ字表記ネパール語からネパール語テキストへの変換

シーケンス・ツー・シーケンステキスト生成

使用事例

言語処理

ローマ字表記ネパール語変換

ローマ字で表記されたネパール語をネパール語テキストに変換

評価セットでBLEUスコアの評価結果を取得

クロスランゲージテキスト処理

ローマ字で書かれたネパール語コンテンツの処理を支援

🚀 romaneng2nep_v2

このモデルは、google/mt5-small を syubraj/roman2nepali-transliteration でファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 2.9652
生成長: 5.1538

image/png

🚀 クイックスタート

このモデルを使用するには、まず必要なライブラリをインストールし、モデルをロードして翻訳を行います。以下に具体的な手順を示します。

📦 インストール

必要なライブラリをインストールするには、以下のコマンドを実行します。

!pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, MT5ForConditionalGeneration

checkpoint = "syubraj/romaneng2nep_v3"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = MT5ForConditionalGeneration.from_pretrained(checkpoint)

# Set max sequence length
max_seq_len = 20

def translate(text):
    # Tokenize the input text with a max length of 20
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=max_seq_len)

    # Generate translation
    translated = model.generate(**inputs)

    # Decode the translated tokens back to text
    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
    return translated_text

# Example usage
source_text = "muskuraudai"  # Example Romanized Nepali text
translated_text = translate(source_text)
print(f"Translated Text: {translated_text}")

📚 ドキュメント

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率: 2e-05
トレーニングバッチサイズ: 24
評価バッチサイズ: 24
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: linear
エポック数: 4

トレーニング結果

ステップ	トレーニング損失	検証損失	生成長
1000	15.0703	5.6154	2.3840
2000	6.0460	4.4449	4.6281
3000	5.2580	3.9632	4.7790
4000	4.8563	3.6188	5.0053
5000	4.5602	3.3491	5.3085
6000	4.3146	3.1572	5.2562
7000	4.1228	3.0084	5.2197
8000	3.9695	2.8727	5.2140
9000	3.8342	2.7651	5.1834
10000	3.7319	2.6661	5.1977
11000	3.6485	2.5864	5.1536
12000	3.5541	2.5080	5.1990
13000	3.4959	2.4464	5.1775
14000	3.4315	2.3931	5.1747
15000	3.3663	2.3401	5.1625
16000	3.3204	2.3034	5.1481
17000	3.2417	2.2593	5.1663
18000	3.2186	2.2283	5.1351
19000	3.1822	2.1946	5.1573
20000	3.1449	2.1690	5.1649
21000	3.1067	2.1402	5.1624
22000	3.0844	2.1258	5.1479
23000	3.0574	2.1066	5.1518
24000	3.0357	2.0887	5.1446
25000	3.0136	2.0746	5.1559
26000	2.9957	2.0609	5.1658
27000	2.9865	2.0510	5.1791
28000	2.9765	2.0456	5.1574
29000	2.9675	2.0386	5.1620
30000	2.9678	2.0344	5.1601
31000	2.9652	2.0320	5.1538

フレームワークバージョン

Transformers 4.45.1
Pytorch 2.4.0
Datasets 3.0.1
Tokenizers 0.20.0

引用

このモデルが役に立った場合は、以下のように引用してください。

@misc {yubraj_sigdel_2024,
	author       = { {Yubraj Sigdel} },
	title        = { romaneng2nep_v3 (Revision dca017e) },
	year         = 2024,
	url          = { https://huggingface.co/syubraj/romaneng2nep_v3 },
	doi          = { 10.57967/hf/3252 },
	publisher    = { Hugging Face }
}