🚀 DataPilot/ArrowNeo-AME-4x3B-v0.1-MoE
本模型旨在成为AItuber的核心,它基于SB intuitions的sarashina-2.2-instruct-v0.1,运用Unsoth和Mergekit-MoE技术构建而成。
🚀 快速开始
模型概述
这是一个由一个基础模型和三个专家模型合并而成的模型。三个专家模型分别为:
AItuber的核心需要具备“多轮对话性能”、“提示遵循性能”和“轻量化”。为了实现这些性能要求,我们制作并合并了上述模型。在合并过程中,使用Mergekit-MoE技术,实现了运行的流畅性和参数数量的平衡。
模型使用
可以使用以下代码运行该模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed
model_name = "DataPilot/ArrowNeo-AME-4x3B-v0.1-MoE"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
chat_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
set_seed(123)
user_input = [{"role": "user", "content": "こんにちは。Pythonを用いてstrawberryのRをカウントするコードを書いて下さい。"}]
responses = chat_pipeline(
user_input,
max_length=50,
do_sample=True,
num_return_sequences=2,
)
for i, response in enumerate(responses, 1):
print(f"Response {i}: {response['generated_text']}")
✨ 主要特性
- 多模型融合:结合了基础模型和三个专家模型的优势,在编码、提示遵循和多轮对话等方面表现出色。
- 性能平衡:通过Mergekit-MoE技术,兼顾了运行的流畅性和参数数量。
📚 详细文档
模型局限性
该模型的安全训练存在一定限制,因此可能会生成一些无意义的序列、不准确的实例,或者有偏差/令人不快的输出。在使用之前,开发者需要根据人类偏好和安全考虑对模型进行调整。
Mergekit配置
base_model: sbintuitions/sarashina2.2-3b-instruct-v0.1
gate_mode: hidden
dtype: bfloat16
experts:
- source_model: DataPilot/ArrowNeo-Neko-3B-Instruct-v0.2
positive_prompts:
- "最近话题的生成AI对未来社会的影响,结合具体例子谈谈你的看法。"
- "随着远程工作的普及,你认为工作的生产力和沟通发生了哪些变化?请结合具体的优缺点说明。"
- "Can you describe the ethical considerations we should have when using AI-generated content in educational contexts? Please provide specific examples."
- "我正在思考一个新的商业想法,目标客户是20 - 30岁居住在城市的年轻上班族,他们希望在忙碌的日常生活中保持健康的生活方式。请提出三个具体的产品或服务想法,并说明每个想法的成功因素和风险因素。"
- "目前我正在研究日本江户时代的文化和社会体系,尤其对平民的日常生活乐趣感兴趣。请清晰详细地解释以下内容:江户时代的町人文化要点、娱乐活动和季节性事件等具体例子、这些对现代社会的影响。请尽量用通俗易懂的语言,并结合学术观点进行解释。"
- "最近我觉得休息日的度过方式变得千篇一律,正在寻找新的爱好。如果可以的话,我希望是一种无论在家还是外出都能享受的爱好,你有什么好的建议吗?"
- source_model: DataPilot/ArrowNeo-Neko-3B-Instruct-v0.1
positive_prompts:
- "请说明日本少子老龄化问题的现状,以及日本政府目前针对该问题实施的具体政策和措施,同时阐述这些政策的效果和面临的挑战。请分段进行说明,并进行逻辑总结。"
- "列举五位世界著名画家,并简要总结以下内容:画家的姓名和活跃时期、代表作及其特点、对后世的影响和评价要点。请用清晰的列表形式进行回答。"
- "Explain clearly the differences between machine learning, deep learning, and artificial intelligence. Provide examples for each category and discuss briefly how each one is applied practically in today's technology. Please organize your response into clear sections."
- "简单解释一下熊猫为什么只吃竹子。"
- "用三句话概括桃太郎的故事。"
- "Quickly tell me an interesting fact about space travel that most people don't know."
- source_model: DataPilot/ArrowNeo-Neko-3B-coder
positive_prompts:
- "使用Python编写一个函数,从给定的整数列表中找出重复的值,并返回一个按升序排列的新列表。函数名为find_duplicates。输入示例: [4, 5, 6, 5, 2, 4, 9],输出示例: [4, 5]。请在代码中添加简单的注释。"
- "使用Python和BeautifulSoup编写代码,对一个虚构的在线书店(例如: https://examplebookstore.com)的首页进行网页抓取。请简单地加入错误处理(异常处理)。"
- "Write a Python function using Pandas that takes a CSV file containing sales data (columns: 'date', 'product', 'sales_amount') and returns a new dataframe with the total sales amount for each product sorted in descending order. Include comments and show an example of how to call this function clearly."
- "告诉我在Python中反转列表最简单的方法。"
- "编写JavaScript代码,在浏览器控制台中显示当前时间。"
- "Quickly explain the difference between a 'for loop' and a 'while loop' in Python with short examples."
📄 许可证
本模型遵循MIT许可证,其许可证遵循原模型的许可证。