🚀 マラヤーラム語LLaMA 7B Instruct v0.1
このモデルは、マラヤーラム語向けの大規模言語モデル(LLM)の開発における重要な一歩となる、マラヤーラム語LLaMA 7B instructモデルの初回リリースです。このモデルは即座に推論が可能であり、特定の自然言語処理(NLP)タスクに合わせてさらに微調整することもできます。
このモデルの開発と機能について詳しく知りたい場合は、研究論文 と 紹介ブログ記事 (未完成) をご覧ください。これらの資料では、開発の過程やモデルの潜在的な影響について説明されています。
⚠️ 重要提示
このモデルはタミル語LLaMAシリーズのモデルをベースにしています。GitHubリポジトリは同じです - https://github.com/abhinand5/tamil-llama。ベースモデルとタミル語LLaMA v0.2の更新コード(このモデルのベースとなっています)は近日公開予定です。
このプロジェクトを応援し、継続的な開発を支援したい場合は、コーヒーをおごる をご検討ください。皆さんの支援は非常に大きな励みになります。

🚀 クイックスタート
簡単に使えるノーコードのデモを利用するには、提供されているGoogle Colabノートブックを開いてください。使用方法の詳細な説明はノートブック内に記載されています。

✨ 主な機能
マラヤーラム語LLaMAモデルは、元のLLaMA-2をベースに、約16,000トークンの広範なマラヤーラム語語彙を持つように強化され、調整されています。
属性 |
详情 |
モデルタイプ |
約50万件のサンプル(英語とマラヤーラム語のサンプルが同じ割合)で微調整された70億パラメータのGPTライクなモデル。(データセットは近日公開予定) |
言語 |
英語とマラヤーラム語のバイリンガル |
ライセンス |
GNU General Public License v3.0 |
微調整元のモデル |
近日公開予定 |
学習精度 |
bfloat16 |
コード |
GitHub(近日更新予定) |
プロンプトテンプレート: ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
ベンチマーク結果
ベンチマークは、LLM-Autoeval を使用して、RTX 3090上の runpod で行われました。
⚠️ 重要提示
Open LLM Leaderboardのスコアと、同じ設定でLM Eval Harnessを使用してローカルで実行した結果との間に不一致が見られることに注意してください。ここに記載されている結果は、私たち自身のベンチマークに基づいています。これらの結果を再現するには、LLM-Autoevalを使用するか、Open LLM LeaderboardのAboutページに記載されている設定で lm-evaluation-harness をローカルで使用することができます。
ベンチマーク |
Llama 2 Chat |
タミル語Llama v0.2 Instruct |
テルグ語Llama Instruct |
マラヤーラム語Llama Instruct |
ARC Challenge (25-shot) |
52.9 |
53.75 |
52.47 |
52.82 |
TruthfulQA (0-shot) |
45.57 |
47.23 |
48.47 |
47.46 |
Hellaswag (10-shot) |
78.55 |
76.11 |
76.13 |
76.91 |
Winogrande (5-shot) |
71.74 |
73.95 |
71.74 |
73.16 |
AGI Eval (0-shot) |
29.3 |
30.95 |
28.44 |
29.6 |
BigBench (0-shot) |
32.6 |
33.08 |
32.99 |
33.26 |
平均 |
51.78 |
52.51 |
51.71 |
52.2 |
関連モデル
モデル |
タイプ |
データ |
ベースモデル |
パラメータ数 |
ダウンロードリンク |
タミル語LLaMA 7B v0.1 Base |
ベースモデル |
12GB |
LLaMA 7B |
70億 |
HF Hub |
タミル語LLaMA 13B v0.1 Base |
ベースモデル |
4GB |
LLaMA 13B |
130億 |
HF Hub |
タミル語LLaMA 7B v0.1 Instruct |
命令追従モデル |
14.5万件の命令 |
タミル語LLaMA 7B Base |
70億 |
HF Hub |
タミル語LLaMA 13B v0.1 Instruct |
命令追従モデル |
14.5万件の命令 |
タミル語LLaMA 13B Base |
130億 |
HF Hub |
タミル語LLaMA 7B v0.2 Instruct |
命令/チャットモデル |
42万件の命令 |
タミル語LLaMA 7B Base v0.2 |
70億 |
HF Hub |
テルグ語LLaMA 7B v0.2 Instruct |
命令/チャットモデル |
約40万件の命令 |
テルグ語LLaMA 7B Base v0.1 |
70億 |
HF Hub |
💻 使用例
基本的な使用法
from transformers import LlamaForCausalLM, AutoTokenizer, pipeline
model = LlamaForCausalLM.from_pretrained(
"abhinand/malayalam-llama-instruct-v0.1",
torch_dtype=torch.bfloat16,
device_map={"": 0},
local_files_only=False
)
model.eval()
tokenizer = AutoTokenizer.from_pretrained("abhinand/malayalam-llama-instruct-v0.1")
inf_pipeline = pipeline("conversational", model=model, tokenizer=tokenizer)
def format_instruction(system_prompt, question, return_dict=False):
if system_prompt is None:
messages = [
{'content': question, 'role': 'user'},
]
else:
messages = [
{'content': system_prompt, 'role': 'system'},
{'content': question, 'role': 'user'},
]
if return_dict:
return messages
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
return prompt
temperature = 0.6
repetition_penalty = 1.1
max_new_tokens = 256
SYSTEM_PROMPT = "You are an AI assistant who follows instructions extremely well. Do your best your best to help."
INPUT = "Give 3 tips to lead a healthy life"
instruction = format_instruction(
system_prompt=SYSTEM_PROMPT,
question=INPUT,
return_dict=True,
)
output = inf_pipeline(
instruction,
temperature=temperature,
max_new_tokens=max_new_tokens,
repetition_penalty=repetition_penalty
)
print(output)
出力例:
Conversation id: d57cdf33-01ff-4328-8efe-5c4fefdd6e77
system: You are an AI assistant who follows instructions extremely well. Do your best your best to help.
user: Give 3 tips to lead a healthy life
assistant: 1. Establish a regular sleep schedule: Aim for 7-9 hours of sleep per night, which is crucial for overall health and well-being.
2. Engage in physical activity regularly: Incorporate exercise into your daily routine, even if it's just a brisk walk or some light stretching. Regular physical activity can help reduce stress, improve mood, and maintain a healthy weight.
3. Eat a balanced diet: Consume a variety of whole grains, lean proteins, fruits, vegetables, and healthy fats. Limit processed foods, sugary drinks, and excessive amounts of sodium.
📚 ドキュメント
使用上の注意
これらのモデルは解毒/検閲処理を行っていません。したがって、印象的な言語能力を持っていますが、有害または不快な内容を生成する可能性があります。ユーザーは、特に公開または敏感なアプリケーションでは、慎重に判断し、モデルの出力を注意深く監視することを強くお勧めします。
開発者紹介
この革新的なモデルの作成者を知り、彼らの分野への貢献をフォローしましょう。
引用
このモデルまたはタミル語LLaMA関連の研究を使用する場合は、以下のように引用してください。
@misc{balachandran2023tamilllama,
title={Tamil-Llama: A New Tamil Language Model Based on Llama 2},
author={Abhinand Balachandran},
year={2023},
eprint={2311.05845},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
私たちは、このモデルがあなたのNLPツールキットの中で貴重なツールとなり、タミル語の理解と生成における進歩をもたらすことを期待しています。
詳細な結果は こちら で確認できます。
メトリック |
値 |
平均 |
39.69 |
AI2 Reasoning Challenge (25-Shot) |
37.20 |
HellaSwag (10-Shot) |
67.81 |
MMLU (5-Shot) |
23.12 |
TruthfulQA (0-shot) |
47.11 |
Winogrande (5-shot) |
62.90 |
GSM8k (5-shot) |
0.00 |