🚀 梵文Qwen 7B翻译模型
本模型是基于Qwen/Qwen2.5-7B-Instruct-1M微调的版本,针对梵文语言任务进行了优化,能够有效处理梵文文本理解、生成及翻译等任务。
📚 详细文档
模型描述
这是一个经过微调的Qwen 2.5 7B模型的融合版本,专门针对梵文语言理解和翻译任务进行了训练。该模型在自定义的梵文数据集上进行训练,以增强其处理梵文文本的能力。
预期用途与局限性
预期用途
- 梵文文本理解与生成
- 梵文 - 英文翻译任务
- 梵文语言处理
局限性
- 性能可能会因梵文文本的复杂程度而有所不同
- 模型的使用应遵循道德和法律准则
训练数据
该模型在diabolic6045/Sanskrit-llama数据集上进行训练。
训练过程
训练详情
- 基础模型:Qwen/Qwen2.5-7B-Instruct-1M
- 训练类型:微调
- 硬件:多GPU设置
- 训练参数:
- 学习率:2e-05
- 训练轮数:1
- 批次大小:2(总计)
- 优化器:AdamW
- 学习率调度器:带热身的余弦调度器
框架版本
- Transformers 4.49.0
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0

查看Axolotl配置
Axolotl版本:0.8.0.dev0
base_model: Qwen/Qwen2.5-7B-Instruct-1M
load_in_8bit: false
load_in_4bit: true
strict: false
datasets:
- path: diabolic6045/Sanskrit-llama
type: alpaca
dataset_prepared_path:
val_set_size: 0
output_dir: ./outputs/qlora-out
adapter: qlora
lora_model_dir:
sequence_len: 1024
sample_packing: true
eval_sample_packing: false
pad_to_sequence_len: true
lora_r: 32
lora_alpha: 16
lora_dropout: 0.05
lora_target_modules:
lora_target_linear: true
lora_fan_in_fan_out:
hub_model_id: Sanskrit-qwen-8B
wandb_project: संस्कृतम्-llama
wandb_entity:
wandb_watch: all
wandb_name: संस्कृतम्-llama
wandb_log_model:
gradient_accumulation_steps: 1
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
cosine_min_lr_ratio: 0.2
learning_rate: 2e-5
train_on_inputs: false
group_by_length: false
bf16: false
fp16:
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: false
warmup_steps: 10
evals_per_epoch: 4
saves_per_epoch: 1
debug:
deepspeed: deepspeed_configs/zero1.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
📄 许可证
本模型根据Apache 2.0许可证发布。
属性 |
详情 |
模型类型 |
基于Qwen 2.5 7B微调的梵文翻译模型 |
训练数据 |
diabolic6045/Sanskrit-llama数据集 |