模型概述
模型特點
模型能力
使用案例
🚀 納米T5小型馬來西亞語翻譯模型V2
納米T5小型馬來西亞語翻譯模型V2基於mesolitica/nanot5-small-malaysian-cased
模型微調而來,在70億個標記的翻譯數據集上,使用2048的上下文長度進行訓練。該模型能夠有效解決馬來西亞當地語言與標準語言之間的翻譯問題,同時支持代碼翻譯和代碼切換,為語言處理和翻譯任務提供了強大的支持。
🚀 快速開始
本模型可用於多種語言的翻譯任務。以下是使用該模型進行翻譯的基本步驟:
from transformers import AutoTokenizer, T5ForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
model = T5ForConditionalGeneration.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
strings = [
'ak tak paham la',
'Hi guys! I noticed semalam & harini dah ramai yang dapat cookies ni kan. So harini i nak share some post mortem of our first batch:',
"Memanglah. Ini tak payah expert, aku pun tau. It's a gesture, bodoh.",
'jam 8 di pasar KK memang org ramai 😂, pandai dia pilih tmpt.',
'Jadi haram jadah😀😃🤭',
'nak gi mana tuu',
'Macam nak ambil half day',
"Bayangkan PH dan menang pru-14. Pastu macam-macam pintu belakang ada. Last-last Ismail Sabri naik. That's why I don't give a fk about politics anymore. Sumpah dah fk up dah.",
]
all_special_ids = [0, 1, 2]
prefix = 'terjemah ke Melayu: '
input_ids = [{'input_ids': tokenizer.encode(f'{prefix}{s}{tokenizer.eos_token}', return_tensors='pt')[
0]} for s in strings]
padded = tokenizer.pad(input_ids, padding='longest')
outputs = model.generate(**padded, max_length = 100)
tokenizer.batch_decode([[i for i in o if i not in all_special_ids] for o in outputs])
輸出結果如下:
[' Saya tidak faham',
' Hi guys! Saya perasan semalam dan hari ini ramai yang menerima cookies. Jadi hari ini saya ingin berkongsi beberapa post mortem batch pertama kami:',
' Memanglah. Tak perlu pakar, saya juga tahu. Ini adalah satu isyarat, bodoh.',
' Orang ramai di pasar KK pada jam 8 pagi, mereka sangat pandai memilih tempat.',
' Jadi haram jadah 😀😃🤭',
' Di mana kamu pergi?',
' Saya ingin mengambil separuh hari',
' Bayangkan PH dan menang PRU-14. Terdapat pelbagai pintu belakang. Akhirnya, Ismail Sabri naik. Itulah sebabnya saya tidak lagi bercakap tentang politik. Saya bersumpah sudah berputus asa.']
輸入文本可以是馬來西亞使用的任何語言,只要使用正確的前綴,模型就能將其翻譯成目標語言。
✨ 主要特性
- 本地化與標準化互譯:該模型能夠將本地化文本翻譯成標準文本,也能將標準文本反向翻譯成本地化文本,適用於文本增強。
- 代碼翻譯:支持代碼翻譯,可處理不同編程語言的代碼。
- 代碼切換:模型原生支持代碼切換,方便在不同語言之間進行轉換。
- 格式保留:模型會原樣保留
\n
、\t
、\r
等格式符號。
📚 詳細文檔
評估結果
- IIUM Confession-EN:這是一個黃金標註數據集,我們聘請人工將IIUM Confession中的當地馬來語翻譯成標準英語。
- 其他數據集:其他評估數據來自FLORES200。
所有評估結果可在此處查看。
訓練階段
我們分三個階段進行訓練:
- 第一階段:在60億個標記的噪聲翻譯數據集的5%上進行訓練,包括所有前綴的填充式訓練,以改善注意力偏差。
- 第二階段:在60億個標記的噪聲翻譯數據集上進行打包式訓練,此階段需要凍結注意力偏差以加快訓練速度。
- 第三階段:在10億個標記的高質量翻譯數據集上進行打包式訓練,同樣需要凍結注意力偏差以加快訓練速度。
支持的前綴
'terjemah ke Mandarin: '
'terjemah ke Tamil: '
'terjemah ke Jawa: '
+'terjemah ke Melayu: '
'terjemah ke Inggeris: '
'terjemah ke johor: '
++'terjemah ke kedah: '
++'terjemah ke kelantan: '
++'terjemah ke pasar Melayu: '
+'terjemah ke melaka: '
++'terjemah ke negeri sembilan: '
++'terjemah ke pahang: '
++'terjemah ke perak: '
++'terjemah ke sabah: '
++'terjemah ke sarawak: '
++'terjemah ke terengganu: '
++'terjemah ke Jawi: '
++'terjemah ke Manglish: '
+'terjemah ke Banjar: '
+'terjemah ke pasar Mandarin: '
+'terjemah ke Cantonese: '
++
- + 表示最低支持。
- ++ 表示初步支持。
💻 使用示例
基礎用法
以下是將英文代碼翻譯成馬來文的示例:
code_english = """
Here's a detailed Python code solution for implementing a Convolutional Neural Network (CNN) for image classification on the CIFAR-10 dataset:
```python
import tensorflow as tf
from tensorflow.keras.datasets import cifar10
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import GridSearchCV
from tensorflow.keras.wrappers.scikit_learn import KerasClassifier
import numpy as np
import matplotlib.pyplot as plt
# Load and preprocess the CIFAR-10 dataset
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0
y_train = tf.keras.utils.to_categorical(y_train, num_classes=10)
y_test = tf.keras.utils.to_categorical(y_test, num_classes=10)
# Define the CNN architecture
def create_model(learning_rate=0.001, dropout_rate=0.5, num_filters=32):
model = Sequential()
model.add(Conv2D(num_filters, (3, 3), activation='relu', padding='same', input_shape=(32, 32, 3)))
model.add(Conv2D(num_filters, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(dropout_rate))
model.add(Conv2D(num_filters * 2, (3, 3), activation='relu', padding='same'))
model.add(Conv2D(num_filters * 2, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(dropout_rate))
model.add(Conv2D(num_filters * 4, (3, 3), activation='relu', padding='same'))
model.add(Conv2D(num_filters * 4, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(dropout_rate))
model.add(Flatten())
model.add(Dense(512, activation='relu'))
model.add(Dropout(dropout_rate))
model.add(Dense(10, activation='softmax'))
optimizer = Adam(learning_rate=learning_rate)
model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
return model
Explanation:
a) Data preprocessing:
- The CIFAR-10 dataset is loaded using
cifar10.load_data()
. - The pixel values of the images are normalized to the range [0, 1] by dividing them by 255.
- The labels are converted to categorical format using
to_categorical()
.
b) CNN Architecture:
- The CNN architecture consists of three convolutional blocks, each containing two convolutional layers followed by a max-pooling layer and dropout regularization.
- The number of filters in each convolutional block is increased progressively (32, 64, 128).
- ReLU activation function is used in the convolutional layers.
- The final layers are fully connected, with a softmax activation for multi-class classification. """
input_ids = tokenizer.encode(f'terjemah ke Melayu: {code_english}{tokenizer.eos_token}', return_tensors = 'pt') outputs = model.generate(input_ids, max_length = 1024) outputs = [i for i in outputs[0] if i not in all_special_ids] print(tokenizer.decode(outputs, spaces_between_special_tokens = False))
輸出結果如下:
Berikut adalah penyelesaian kod Python yang terperinci untuk melaksanakan Rangkaian Neural Konvolusi (CNN) untuk pengelasan imej pada dataset CIFAR-10:
import tensorflow as tf
from tensorflow.keras.datasets import cifar10
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import GridSearchCV
from tensorflow.keras.wrappers.scikit_learn import KerasClassifier
import numpy as np
import matplotlib.pyplot as plt
# Muatkan dan praproses dataset CIFAR-10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0
y_train = tf.keras.utils.to_categorical(y_train, num_classes=10)
y_test = tf.keras.utils.to_categorical(y_test, num_classes=10)
# Tentukan senibina CNN
def create_model(learning_rate=0.001, dropout_rate=0.5, num_filters=32):
model = Sequential()
model.add(Conv2D(num_filters, (3, 3), activation='relu', padding='same', input_shape=(32, 32, 3)))
model.add(Conv2D(num_filters, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(dropout_rate))
model.add(Conv2D(num_filters * 2, (3, 3), activation='relu', padding='same'))
model.add(Conv2D(num_filters * 2, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(dropout_rate))
model.add(Conv2D(num_filters * 4, (3, 3), activation='relu', padding='same'))
model.add(Conv2D(num_filters * 4, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(dropout_rate))
model.add(Flatten())
model.add(Dense(512, activation='relu'))
model.add(Dropout(dropout_rate))
model.add(Dense(10, activation='softmax'))
optimizer = Adam(learning_rate=learning_rate)
model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
return model
Penjelasan:
a) Prapemprosesan data:
- Dataset CIFAR-10 dimuatkan menggunakan
cifar10.load_data()
. - Nilai piksel imej dinormalisasi ke julat [0, 1] dengan membahagikannya dengan 255.
- Label ditukar kepada format kategori menggunakan
to_categorical()
.
b) Senibina CNN:
- Senibina CNN terdiri daripada tiga blok konvolusi, setiap satu mengandungi dua lapisan konvolusi diikuti oleh lapisan max-pooling dan regularisasi dropout.
- Bilangan penapis dalam setiap blok konvolusi meningkat secara beransur-ansur (32, 64, 128).
### 高級用法
以下是將印尼文代碼翻譯成多種語言的示例:
#### 翻譯成馬來文
```python
code_indon = """
`Untuk menggunakan numpy, pertama-tama, Anda perlu menginstalnya melalui pip. Anda dapat melakukannya dengan menjalankan perintah `pip install numpy` di terminal Anda.
Setelah numpy terinstal, Anda dapat mengimpor modul numpy dengan menambahkan baris `import numpy as np` di awal program Anda.
Berikut adalah contoh beberapa operasi dasar numpy:
``` python
import numpy as np
# membuat array numpy dari list
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# membuat array numpy dengan rentang nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, dan loncatan
# membuat array numpy dengan nilai acak
my_random_array = np.random.rand(3, 3) # 3 baris dan 3 kolom
# mengakses elemen array numpy
print(my_array[0]) # mengakses elemen pertama
# melakukan operasi matematika pada array numpy
my_array = my_array + 1 # menambah setiap elemen dengan 1
my_array = my_array * 2 # mengalikan setiap elemen dengan 2
# mengubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # menjadi array 2D dengan 2 baris dan 5 kolom
Itulah beberapa operasi dasar numpy. Anda dapat menemukan dokumentasi resmi numpy di https://numpy.org/doc/stable/. """ input_ids = tokenizer.encode(f'terjemah ke Melayu: {code_indon}{tokenizer.eos_token}', return_tensors = 'pt') outputs = model.generate(input_ids, max_length = 1024) outputs = [i for i in outputs[0] if i not in all_special_ids] print(tokenizer.decode(outputs, spaces_between_special_tokens = False))
輸出結果如下:
Untuk menggunakan numpy, pertama sekali, anda perlu memasangnya melalui pip. Anda boleh melakukannya dengan menjalankan perintah
pip install numpydi terminal anda. Setelah numpy dipasang, anda boleh mengimport modul numpy dengan menambahkan baris
import numpy as np` pada permulaan program anda.
Berikut adalah contoh beberapa operasi asas numpy:
import numpy as np
# membuat array numpy dari senarai
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# membuat array numpy dengan nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, dan lompat
# membuat array numpy dengan nilai rawak
my_random_array = np.random.rand(3, 3) # 3 baris dan 3 lajur
# mengakses elemen array numpy
print(my_array[0]) # mengakses elemen pertama
# melakukan operasi matematik pada array numpy
my_array = my_array + 1 # menambah setiap elemen dengan 1
my_array = my_array * 2 # mendarab setiap elemen dengan 2
# mengubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # menjadi array 2D dengan 2 baris dan 5 lajur
Itulah beberapa operasi asas numpy. Anda boleh menemui dokumentasi rasmi numpy di https://numpy.org/doc/stable/.
#### 翻譯成爪夷文
```python
code_indon = """
`Untuk menggunakan numpy, pertama-tama, Anda perlu menginstalnya melalui pip. Anda dapat melakukannya dengan menjalankan perintah `pip install numpy` di terminal Anda.
Setelah numpy terinstal, Anda dapat mengimpor modul numpy dengan menambahkan baris `import numpy as np` di awal program Anda.
Berikut adalah contoh beberapa operasi dasar numpy:
``` python
import numpy as np
# membuat array numpy dari list
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# membuat array numpy dengan rentang nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, dan loncatan
# membuat array numpy dengan nilai acak
my_random_array = np.random.rand(3, 3) # 3 baris dan 3 kolom
# mengakses elemen array numpy
print(my_array[0]) # mengakses elemen pertama
# melakukan operasi matematika pada array numpy
my_array = my_array + 1 # menambah setiap elemen dengan 1
my_array = my_array * 2 # mengalikan setiap elemen dengan 2
# mengubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # menjadi array 2D dengan 2 baris dan 5 kolom
Itulah beberapa operasi dasar numpy. Anda dapat menemukan dokumentasi resmi numpy di https://numpy.org/doc/stable/. """ input_ids = tokenizer.encode(f'terjemah ke Jawi: {code_indon}\n{tokenizer.eos_token}', return_tensors = 'pt') outputs = model.generate(input_ids, max_length = 1024) outputs = [i for i in outputs[0] if i not in all_special_ids] print(tokenizer.decode(outputs, spaces_between_special_tokens = False))
輸出結果如下:
اونتوق مڠݢوناکن نومڤي، ڤرتام-تام، اندا ڤرلو مڠينتسڽ ملالوکن ڤيڤ. اندا داڤت ملاکوکنڽ دڠن منجالنکن ڤرينته
ڤيڤ اڤڤل نومڤيد تيمورن اندا. سلڤس نومڤي ترينستل، اندا داڤت مڠيڤور مودول نومڤي دڠن منمبهكن باريس
ايڤنين نومڤي اس نوؿ` د اول ڤروڬرام اندا.
بريکوت اداله چونتوه ببراڤ اوڤراسي داسر نومڤي:
ايمڤورت نومڤي اس نوؿ
# ممبوات اراي نومڤي دري سناراي
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# ممبوات اراي نومڤي دڠن رنتڠ نيلاي ترتنتو
my_range = np.arange(0, 10, 2) # نيلاي اول، نيلاي اخير، دان لونچتن
# ممبوات اراي نومڤي دڠن نيلاي اچق
my_random_array = np.random.rand(3, 3) # ٣ باريس دان ٣ لوروس
# مڠاکس ايليمن اراي نومڤي
ڤوجود(my_array[0]) # مڠاکس ايليمن ڤرتام
# ملاکوکن اوڤراسي ماتماتيك ڤد اراي نومڤي
my_array = my_array + ١ # منمبه ستياڤ ايليمن دڠن ١
my_array = my_array * ٢ # مڠاکسس ستياڤ ايليمن دڠن ٢
# مڠوبه بنتوق اراي نومڤي
my_array = np.reshape(my_array, (2, 5)) # منجادي اراي ٢د دڠن ٢ باريس دان ٥ لوروس
اداله ببراڤ اوڤراسي داسر نومڤي. اندا داڤت منموکن دوكومنتاسي ريسمي نومڤي د https://numpy.org/doc/stable/.
#### 翻譯成登嘉樓文
```python
code_indon = """
`Untuk menggunakan numpy, pertama-tama, Anda perlu menginstalnya melalui pip. Anda dapat melakukannya dengan menjalankan perintah `pip install numpy` di terminal Anda.
Setelah numpy terinstal, Anda dapat mengimpor modul numpy dengan menambahkan baris `import numpy as np` di awal program Anda.
Berikut adalah contoh beberapa operasi dasar numpy:
``` python
import numpy as np
# membuat array numpy dari list
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# membuat array numpy dengan rentang nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, dan loncatan
# membuat array numpy dengan nilai acak
my_random_array = np.random.rand(3, 3) # 3 baris dan 3 kolom
# mengakses elemen array numpy
print(my_array[0]) # mengakses elemen pertama
# melakukan operasi matematika pada array numpy
my_array = my_array + 1 # menambah setiap elemen dengan 1
my_array = my_array * 2 # mengalikan setiap elemen dengan 2
# mengubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # menjadi array 2D dengan 2 baris dan 5 kolom
Itulah beberapa operasi dasar numpy. Anda dapat menemukan dokumentasi resmi numpy di https://numpy.org/doc/stable/. """ input_ids = tokenizer.encode(f'terjemah ke terengganu: {code_indon}{tokenizer.eos_token}', return_tensors = 'pt') outputs = model.generate(input_ids, max_length = 1024) outputs = [i for i in outputs[0] if i not in all_special_ids] print(tokenizer.decode(outputs, spaces_between_special_tokens = False))
輸出結果如下:
Kalu gune numpy, pertama-tama, mung kene ngambik die melalui pip. Mung buleh ngate ngah jalankan perintah
pip install numpydalang terminal mung. Lepas numpy terinstal, mung buleh ngimport modul numpy tu dengan tambah baris
import numpy as np` dalang awal program mung.
Ni contoh sikit-sikit operasi dasar numpy:
import numpy as np
# buat array numpy dari list
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# buat array numpy tu dengan rentang nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, ngah lompat
# buat array numpy tu dengan nilai acak
my_random_array = np.random.rand(3, 3) # 3 baris ngah 3 kolom
# akses elemen array numpy
print(my_array[0]) # akses elemen pertama
# buat operasi matematik dalang array numpy
my_array = my_array + 1 # tambah tiap tiap elemen denge 1
my_array = my_array * 2 # darab tiap tiap elemen denge 2
# ubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # jadi array 2D denge 2 baris ngah 5 kolom
Itu la sikit-sikit operasi dasar numpy. Mung buleh nemu dokumentasi rasmi numpy dalang https://numpy.org/doc/stable/.
#### 翻譯成霹靂文
```python
code_indon = """
`Untuk menggunakan numpy, pertama-tama, Anda perlu menginstalnya melalui pip. Anda dapat melakukannya dengan menjalankan perintah `pip install numpy` di terminal Anda.
Setelah numpy terinstal, Anda dapat mengimpor modul numpy dengan menambahkan baris `import numpy as np` di awal program Anda.
Berikut adalah contoh beberapa operasi dasar numpy:
``` python
import numpy as np
# membuat array numpy dari list
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# membuat array numpy dengan rentang nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, dan loncatan
# membuat array numpy dengan nilai acak
my_random_array = np.random.rand(3, 3) # 3 baris dan 3 kolom
# mengakses elemen array numpy
print(my_array[0]) # mengakses elemen pertama
# melakukan operasi matematika pada array numpy
my_array = my_array + 1 # menambah setiap elemen dengan 1
my_array = my_array * 2 # mengalikan setiap elemen dengan 2
# mengubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # menjadi array 2D dengan 2 baris dan 5 kolom
Itulah beberapa operasi dasar numpy. Anda dapat menemukan dokumentasi resmi numpy di https://numpy.org/doc/stable/. """ input_ids = tokenizer.encode(f'terjemah ke perak: {code_indon}{tokenizer.eos_token}', return_tensors = 'pt') outputs = model.generate(input_ids, max_length = 1024, top_p=0.95, top_k=50, temperature=0.9, do_sample=True,) outputs = [i for i in outputs[0] if i not in all_special_ids] print(tokenizer.decode(outputs, spaces_between_special_tokens = False))
輸出結果如下:
Nih lah, ape yang teman teman nak buat ni. Miker nak kene buat macam tu.
**Dok suruh kome pasang numpy dari list, cuba masukkan baris import numpy as np
dalam baris yang dah siap.
- Ni contoh beberapa operasi dasar numpy:
import numpy as np
# buat array numpy dari list
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
# buat array numpy dalam nilai tertentu
my_range = np.arange(0, 10, 2) # nilai awal, nilai akhir, ngan jumpe
# buat array numpy dalam nilai acak
my_random_array = np.random.rand(3, 3) # 3 baris ngan 3 kolom
# access elemen array numpy
print(my_array[0]) # access element pertama
# buat operasi matematik kat array numpy
my_array = my_array + 1 # tambah setiap elemen ngan 1
my_array = my_array * 2 # darab tiap elemen ngan 2
# ubah bentuk array numpy
my_array = np.reshape(my_array, (2, 5)) # jadi array 2D dengan 2 baris ngan 5 kolom
Ate, ni beberapa operasi dasar numpy. Kome boleh cari dokumentasi rasmi numpy kat https://numpy.org/doc/stable/.
### 隨機生成更多翻譯結果
使用隨機採樣可以生成更多不同的翻譯結果,更多信息可參考[此處](https://huggingface.co/blog/how-to-generate#sampling)。
以下是將一篇新聞片段翻譯成沙巴文的示例:
```python
news = """
Ahli ekonomi memuji Belanjawan 2025 dibentangkan Perdana Menteri, Anwar Ibrahim semalam yang disifatkan berfikiran ke depan dan ternyata Madani dengan penekanan lebih ke atas penstrukturan semula ekonomi jangka panjang.
Bawani Lelchumanan dari Business School Universiti Sunway berkata, fokus Belanjawan 2025 untuk meningkatkan daya saing global negara dengan menyokong inisiatif dalam sektor seperti semikonduktor, tenaga hijau, kewangan Islam dan transformasi digital.
Beliau memberitahu FMT, inisiatif ini boleh menjadikan Malaysia pemain berdaya saing di peringkat serantau dan antarabangsa.
"""
input_ids = tokenizer.encode(f'terjemah ke sabah: {news}{tokenizer.eos_token}', return_tensors = 'pt')
outputs = model.generate(
input_ids,
max_length=200,
top_p=0.95,
top_k=50,
temperature=0.9,
do_sample=True,
num_return_sequences=5
)
out = tokenizer.batch_decode([[i for i in o if i not in all_special_ids] for o in outputs])
for o in out:
print(o.strip(), '\n------\n')
輸出結果如下:
Tingu ja la, mungkin ada buyuk-buyuk kasi betripak bah, sidak yang kritik pasal bajet 2025 yang papai dekat Anwar tu? Kin panas betul la cerita hari tu. Dorang ni main otak-otak ja, tapi orang tingu ja kerajaan sudah ndapok. Tingu ja la, mungkin ada buyuk-buyuk yang kita nda tau. Bah, mungkin ada buyuk-buyuk yang kita nda tau. Anu bah, mungkin ada buyuk yang kita nda tau. Ndapapa kalau nda faham lagi? Anu bah, kita mesti bikin kerajaan jadi lebih banyak tempat yang lagi banyak lagi yang boleh buat negeri kita jadi lebih banyak.
------
Bah, palui betul keadaan orang ramai pasal bajet 2025 yang dibahaskan oleh Perdana Menteri, Anwar Ibrahim tu, tu sebab dorang tingu saja, dorang fikir betul-betul depan, nda payah la nak betulkan ekonomi lama-lama.
Bawani Lelchumanan dari Business School Sunway tu cakap, kita gabung tu untuk naikkan negara kita jadi gulung tikar kalau mau masuk sektor semikonduktor, ekonomi hijau, ekonomi Islam, ndak payah la ubah ekonomi digital tu.
Kito bilang dari FMT, mungkin kita boleh buat Malaysia jadi gulung tikar di peringkat serantau. Sia boleh buat Malaysia jadi pemain kuat di peringkat antarabangsa.
Anu bah, kalau ada apa-apa nda, tanya dia? Tingu saja la, mungkin ada buyuk-buyuk yang kita nda tau. Tingu ja, mungkin ada cara lain yang sia-kita mau. Bilang la, mungkin ada
------
Bah, kunuk sia mau bilang sama dia:
Anwar kunuk kerajaan kita dulu suka tingu, hari tu dia mikir depan-depan, betul ka? Lah, palui betul la kalau dorang main-main. Tingu saja, ekonomi kita ni macam dulu-dulu saja. Bawa betul la, bilang pasal ni:
Sia di sini nda mau betrip-trip bah, sama sama dia-kita. Dorang bilang macam-macam mau bikin semua ini orang. Kalau kita mau maju sama-sama, mesti ada duit lebih.
Bah, itu cerita pasal kerajaan ni, tapi kalau kita mau maju, boleh buyuk-buyuk. Kalau betul sia main-main, memang sia tingu saja la. Kalau ada apa-apa yang kita mau, kita mesti la mau betrip sama sama-sama. Tingu saja la, mungkin ada yang mau kita nda jadi lebih kuat sama n
------
Bah, palui betul la si ekonomi ni, baru-baru ni ada orang puji-puji pasal bajet 2025 tu. Kamurang nampak macam dulu dah fikir-fikir dulu. Tapi semua orang cakap elok-elok, orang kita semua mau pastikan negara kita ni jadi orang yang mau ubah. Kin panas bah, orang Sabah cakap kita boleh buat sesuatu.
Anu bah, mungkin ada buyuk-buyuk yang kita nda tau. Kalau ada yang mau, kita bikin perubahan apa-apa saja. Nanti kita semua jadi orang yang nak melabur sama orang yang mau maju sama negara ni. Kin panas bah, tapi kalau semua orang pandai, mesti la kita jaga diri. Kamurang fikir macam mana?
------
Bah, kunuk sia mau bilang pasal bah, mungkin ada buyuk-buyuk yang nda kasi baik dalam negara kalau kita mau baik-baik saja. Anu bah, sudah ada orang-orang Malaysia yang kita nda tau sama kasi orang-orang yang ada kepentingan, sudah tentu ada orang yang mau bilang apa-apa. Bawani Lelchumanan dari Universitas Sunway tu cakap, duit negara kita ni masih ada yang mau kita maju, dorang mau bikin duit lebih, jangan sampai kita jadi juara. Ndak mau bikin Malaysia jadi juara untuk lawan, tapi mungkin kita perlu ada cara lain.
------
🔧 技術細節
加速推理
微調自己的數據集
我們使用從此處分叉的T5 SDPA多包進行微調,雖然文檔不太完善,但這些腳本應該也能正常工作。
📦 安裝指南
本模型基於transformers
庫,可通過以下命令安裝:
pip install transformers
📄 許可證
文檔中未提及許可證相關信息。若有需要,請進一步查閱項目相關資料。



