DeepSeek-LLM-Tiny-Random开源文本生成模型 - 免费用于各类文本创作任务

首页

Deepseek Llm Tiny Random

由 yujiepan 开发

这是一个基于DeepSeek-LLM-67B-Chat架构的随机初始化小型模型，采用float16精度，主要用于文本生成任务。

大型语言模型

Transformers

#微型文本生成 #随机初始化 #中文对话

下载量 38

发布时间 : 4/1/2024

模型简介

该模型是DeepSeek-LLM-67B-Chat的缩小版本，保留了原始架构但参数规模大幅减小，适合快速测试和原型开发。

模型特点

小型化设计

基于大型模型架构但大幅缩小规模，适合快速测试

float16精度

采用半精度浮点数，减少内存占用

兼容DeepSeek架构

保持与DeepSeek-LLM-67B-Chat相同的架构配置

模型能力

中文文本生成

对话系统原型开发

使用案例

开发测试

模型架构验证

用于验证DeepSeek架构在小规模下的表现

可快速验证架构设计可行性

原型开发

为大型语言模型应用开发提供快速原型环境

加速开发流程

🚀 小型随机DeepSeek语言模型

本项目是一个随机初始化的模型，它借鉴了 deepseek-ai/deepseek-llm-67b-chat 的配置，但规模更小。该模型采用float16格式。

🚀 快速开始

模型说明

此模型随机初始化，使用了 deepseek-ai/deepseek-llm-67b-chat 的配置，不过规模更小。需要注意的是，该模型采用的是float16格式。

代码示例

import transformers
import torch
import os
from huggingface_hub import create_repo, upload_folder

source_model_id = 'deepseek-ai/deepseek-llm-67b-chat'
save_path = '/tmp/yujiepan/deepseek-llm-tiny-random'
repo_id = 'yujiepan/deepseek-llm-tiny-random'

config = transformers.AutoConfig.from_pretrained(
    source_model_id, trust_remote_code=True)
config.hidden_size = 2
config.intermediate_size = 4
config.num_attention_heads = 2
config.num_hidden_layers = 2
config.num_key_value_heads = 1

model = transformers.AutoModelForCausalLM.from_config(
    config, trust_remote_code=True)
model = model.half()
model.save_pretrained(save_path)

tokenizer = transformers.AutoTokenizer.from_pretrained(
    source_model_id, trust_remote_code=True)
tokenizer.save_pretrained(save_path)

result = transformers.pipelines.pipeline(
    'text-generation',
    model=model.float(), tokenizer=tokenizer)('Hello')
print(result)

os.system(f'ls -alh {save_path}')
create_repo(repo_id, exist_ok=True)
upload_folder(repo_id=repo_id, folder_path=save_path)

💻 使用示例

基础用法

import transformers
import torch
import os
from huggingface_hub import create_repo, upload_folder

source_model_id = 'deepseek-ai/deepseek-llm-67b-chat'
save_path = '/tmp/yujiepan/deepseek-llm-tiny-random'
repo_id = 'yujiepan/deepseek-llm-tiny-random'

config = transformers.AutoConfig.from_pretrained(
    source_model_id, trust_remote_code=True)
config.hidden_size = 2
config.intermediate_size = 4
config.num_attention_heads = 2
config.num_hidden_layers = 2
config.num_key_value_heads = 1

model = transformers.AutoModelForCausalLM.from_config(
    config, trust_remote_code=True)
model = model.half()
model.save_pretrained(save_path)

tokenizer = transformers.AutoTokenizer.from_pretrained(
    source_model_id, trust_remote_code=True)
tokenizer.save_pretrained(save_path)

result = transformers.pipelines.pipeline(
    'text-generation',
    model=model.float(), tokenizer=tokenizer)('Hello')
print(result)

os.system(f'ls -alh {save_path}')
create_repo(repo_id, exist_ok=True)
upload_folder(repo_id=repo_id, folder_path=save_path)

高级用法

上述代码已经涵盖了模型的基本使用流程，若有更复杂的需求，可根据实际情况调整 config 中的参数，例如修改 hidden_size、intermediate_size 等，以改变模型的规模和性能。

# 可根据实际情况修改以下参数
config.hidden_size = 4
config.intermediate_size = 8
# 其他代码保持不变

📚 详细文档

模型参数说明

属性	详情
模型类型	基于transformers库的文本生成模型
训练数据	随机初始化，未使用特定训练数据

代码功能说明

导入必要的库：导入 transformers、torch、os 以及 huggingface_hub 中的相关函数。
设置模型和保存路径：指定源模型ID、保存路径和仓库ID。
配置模型参数：从源模型加载配置，并修改部分参数，如隐藏层大小、中间层大小等。
创建模型和分词器：根据配置创建模型和分词器，并将模型转换为float16格式。
保存模型和分词器：将模型和分词器保存到指定路径。
进行文本生成：使用 transformers.pipelines.pipeline 进行文本生成，并打印结果。
上传模型到Hugging Face：创建仓库并将保存的模型上传到Hugging Face。

注意事项

该模型是随机初始化的，可能无法生成有意义的文本。
模型采用float16格式，可减少内存占用，但可能会影响精度。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库