Tamil Llama 7b Instruct V0.2
这是一个基于LLaMA-2的7B参数泰米尔语指导模型,支持英语和泰米尔双语处理。
下载量 197
发布时间 : 1/23/2024
模型简介
该模型是推动泰米尔语言大模型发展的重要一步,已准备好进行推理或进一步微调以满足特定自然语言处理任务需求。
模型特点
双语支持
同时支持英语和泰米尔语处理
泰米尔语增强
在原始LLaMA-2基础上增加了约16,000个泰米尔词汇
指令跟随
专门针对指令跟随任务进行了优化
模型能力
泰米尔语文本生成
英语文本生成
指令理解与执行
多轮对话
使用案例
教育
泰米尔文化解释
解释泰米尔节日和传统
示例中成功解释了Pongal节日的意义
客服
双语客服助手
为泰米尔语用户提供英语-泰米尔双语客服支持
🚀 泰米尔语LLaMA 7B指令模型v0.2
泰米尔语LLaMA 7B指令模型的首次发布是推进泰米尔语大语言模型发展的重要一步。该模型可立即用于推理,也可进一步微调以满足您特定的自然语言处理任务需求。
若您想深入了解该模型的开发过程和能力,请阅读研究论文和介绍性博客文章(待完成),其中概述了我们的研究历程以及该模型的潜在影响。
🚀 快速开始
本模型可立即用于推理,也可进一步微调以满足您特定的自然语言处理任务需求。您可以通过以下方式深入了解模型:
- 阅读研究论文,了解模型的开发过程和能力。
- 查看介绍性博客文章(待完成),了解我们的研究历程以及该模型的潜在影响。
✨ 主要特性
- 双语支持:支持英语和泰米尔语,适用于双语自然语言处理任务。
- 可微调:可进一步微调以满足特定的自然语言处理任务需求。
- 高性能:在多个基准测试中表现出色,如ARC Challenge、TruthfulQA等。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import LlamaForCausalLM, AutoTokenizer, pipeline
model = LlamaForCausalLM.from_pretrained(
"abhinand/tamil-llama-instruct-v0.2",
#load_in_8bit=True, # Set this depending on the GPU you have
torch_dtype=torch.bfloat16,
device_map={"": 0}, # Set this depending on the number of GPUs you have
local_files_only=False # Optional
)
model.eval()
tokenizer = AutoTokenizer.from_pretrained("abhinand/tamil-llama-instruct-v0.2")
inf_pipeline = pipeline("conversational", model=model, tokenizer=tokenizer)
def format_instruction(system_prompt, question, return_dict=False):
if system_prompt is None:
messages = [
{'content': question, 'role': 'user'},
]
else:
messages = [
{'content': system_prompt, 'role': 'system'},
{'content': question, 'role': 'user'},
]
if return_dict:
return messages
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
return prompt
# Set the generation configuration according to your needs
temperature = 0.6
repetition_penalty = 1.1
max_new_tokens = 256
SYSTEM_PROMPT = "You are an AI assistant who follows instructions extremely well. Do your best your best to help."
INPUT = "Can you explain the significance of Tamil festival Pongal?"
instruction = format_instruction(
system_prompt=SYSTEM_PROMPT,
question=INPUT,
return_dict=True,
)
output = inf_pipeline(
instruction,
temperature=temperature,
max_new_tokens=max_new_tokens,
repetition_penalty=repetition_penalty
)
print(output)
示例输出
Conversation id: d57cdf33-01ff-4328-8efe-5c4fefdd6e77
system: You are an AI assistant who follows instructions extremely well. Do your best your best to help.
user: Can you explain the significance of Tamil festival Pongal?
assistant: Pongal is a significant harvest festival celebrated in Tamil Nadu and other parts of southern India. It marks the end of the rainy season and beginning of the agricultural year. The festival primarily revolves around giving gratitude to nature, particularly the Sun God Surya for his bountiful gifts like agriculture and health. People offer prayers to cattle, which play a significant role in agriculture, as well as their families for their continued support during the harvest season. The festival is marked by various colorful events, including preparing traditional Pongal dishes like rice cooked with milk, sugarcane, and banana, followed by exchanging gifts and celebrating among family members and friends. It also serves as a time for unity and strengthens the bond between people in their communities.
📚 详细文档
模型描述
泰米尔语LLaMA模型在原始LLaMA - 2的基础上进行了增强和定制,拥有约16,000个标记的广泛泰米尔语词汇。
属性 | 详情 |
---|---|
模型类型 | 一个70亿参数的类GPT模型,在约500,000个样本上进行微调,这些样本中英语和泰米尔语样本比例相等。(数据集即将发布) |
语言 | 双语,英语和泰米尔语 |
许可证 | GNU通用公共许可证v3.0 |
微调基础模型 | 即将发布 |
训练精度 | bfloat16 |
代码 | GitHub(即将更新) |
提示模板:ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
基准测试结果
使用LLM - Autoeval在runpod的RTX 3090上进行基准测试。
⚠️ 重要提示
请注意,在Open LLM排行榜分数与使用LM Eval Harness在相同配置下本地运行获得的分数之间存在差异。此处提到的结果基于我们自己的基准测试。若要复现这些结果,您可以使用LLM - Autoeval或在本地使用lm - evaluation - harness,并按照Open LLM排行榜“关于”页面中描述的配置进行操作。
基准测试 | Llama 2 Chat | 泰米尔语Llama v0.2指令模型 | 泰卢固语Llama指令模型 | 马拉雅拉姆语Llama指令模型 |
---|---|---|---|---|
ARC挑战(25次射击) | 52.9 | 53.75 | 52.47 | 52.82 |
TruthfulQA(0次射击) | 45.57 | 47.23 | 48.47 | 47.46 |
Hellaswag(10次射击) | 78.55 | 76.11 | 76.13 | 76.91 |
Winogrande(5次射击) | 71.74 | 73.95 | 71.74 | 73.16 |
AGI评估(0次射击) | 29.3 | 30.95 | 28.44 | 29.6 |
BigBench(0次射击) | 32.6 | 33.08 | 32.99 | 33.26 |
平均值 | 51.78 | 52.51 | 51.71 | 52.2 |
相关模型
模型 | 类型 | 数据 | 基础模型 | 参数数量 | 下载链接 |
---|---|---|---|---|---|
泰米尔语LLaMA 7B v0.1基础模型 | 基础模型 | 12GB | LLaMA 7B | 70亿 | HF Hub |
泰米尔语LLaMA 13B v0.1基础模型 | 基础模型 | 4GB | LLaMA 13B | 130亿 | HF Hub |
泰米尔语LLaMA 7B v0.1指令模型 | 指令跟随模型 | 14.5万条指令 | 泰米尔语LLaMA 7B基础模型 | 70亿 | HF Hub |
泰米尔语LLaMA 13B v0.1指令模型 | 指令跟随模型 | 14.5万条指令 | 泰米尔语LLaMA 13B基础模型 | 130亿 | HF Hub |
泰卢固语LLaMA 7B v0.1指令模型 | 指令/聊天模型 | 42万条指令 | 泰卢固语LLaMA 7B基础模型v0.1 | 70亿 | HF Hub |
马拉雅拉姆语LLaMA 7B v0.2指令模型 | 指令/聊天模型 | 42万条指令 | 马拉雅拉姆语LLaMA 7B基础模型v0.1 | 70亿 | HF Hub |
使用注意事项
⚠️ 重要提示
请注意,这些模型未经过去毒化/审查处理。因此,虽然它们具有出色的语言能力,但有可能生成被认为有害或冒犯性的内容。我们敦促用户谨慎使用,并密切监督模型的输出,特别是在公共或敏感应用场景中。
开发者介绍
认识一下这款创新模型背后的开发者,并关注他们在该领域的贡献:
引用
如果您在研究中使用了该模型或任何与泰米尔语LLaMA相关的工作,请引用:
@misc{balachandran2023tamilllama,
title={Tamil-Llama: A New Tamil Language Model Based on Llama 2},
author={Abhinand Balachandran},
year={2023},
eprint={2311.05845},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
我们希望该模型能成为您自然语言处理工具包中的宝贵工具,并期待看到它在泰米尔语理解和生成方面带来的进步。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98