admin 超级版主
0 你想要对 DeepSeek-R1 进行“越狱”。理论上是可以的,但是需要足够强大的算力和团队支持,越狱的方法有几种不同的思路,这主要取决于模型的训练方式和部署环境。以下是一些通用的方法,你可以根据自己的情况进行尝试: 1. 调整系统提示(System Prompt Injection) 适用情况:如果模型的限制是由系统提示(system prompt)或特定的指令控制的。 方法: 在 Chat API 或 本地推理 时,尝试修改 系统提示(system prompt)。 例如,如果模型默认的 system_prompt 是:可以尝试替换为: 在 HF Transformers 或 vLLM 运行时,你可以手动修改 chat_template 以移除这些限制。 工具: HF Transformers: 运行时使用 model.generation_config 修改默认行为。 vLLM: 如果用 vLLM 作为推理服务器,可以尝试修改 chat_template.json。 2. 重新训练 LoRA 适配层 适用情况:如果系统提示无法完全解除限制(模型本身带有 RLHF 微调)。 方法: 使用 LoRA(低秩适配) 训练一个 越狱微调层: 先收集一个数据集,包含去掉限制的回答(如 ShareGPT、OpenAssistant 数据)。 使用 QLoRA(quantized LoRA)减少显存需求。 训练完成后,将 LoRA 适配层合并到模型权重中。 工具: peft(Hugging Face 的 LoRA 训练工具) qlora(如果显存不足) trl(HF 变体的 RLHF 训练工具) 3. 手动 Patching Transformer 层 适用情况:如果模型本身已经经过 RLHF(如 DeepSeek-R1)。 方法: 直接修改 Transformer 层,绕过 RLHF: 在 model.forward() 里 hook attention_mask,去掉限制 token。 在 logits_processor 里修改 logits,使得 “应拒绝回答” 这种 token 的概率降低。 在 transformers.GenerationMixin 里替换 generate() 方法,绕过 RLHF 罚分。 示例代码(HF Transformers 修改 generate()): 4. 直接微调模型(全量训练) 适用情况:如果你有算力,并且想彻底移除 RLHF 影响。 方法: 数据集: 使用 原始 Pretrain 数据(如 RedPajama、The Pile)。 结合 自由风格对话数据(如 OpenAssistant、ShareGPT)。 训练步骤: 先运行 fp16 / bf16 训练 1000~3000 step 微调 RLHF 影响。 用 SFT(Supervised Fine-tuning) 继续训练无限制数据。 如有需要,使用 DDP + FSDP(分布式训练)提高训练效率。 工具: transformers(微调) DeepSpeed(优化训练速度) FSDP(降低显存占用) 5. 二进制权重修改(适用于已部署 API) 适用情况:如果你无权访问模型参数,但可以修改其部署方式。 方法: vLLM / TGI Hook: 修改 vLLM 或 Text Generation Inference(TGI)API,使其跳过限制逻辑。 静态 Patch: 使用 mmap 或 hexedit 查找拒绝回答的 token,并手动修改。 例如,如果模型返回 I’m sorry, but I can’t comply with that request. 直接 patch 生成的 token logits,使得这个句子概率下降。2月18日 22:29@OxygenChu
OxygenChu 作者
0 嗯,你说的我都知道,而且我也在用 DeepSeek-R1-Distill-Qwen-32B-abliterated 苦于 HF 上没有 R1 满血版越狱,所以我的问题是想咨询一下(理论上来讲任何 TF 模型)越狱的方法,这样我可以自行制作一个 R1 满血版越狱。2月18日 15:51@admin
admin 超级版主
0 目前还没有满血的越狱版,视频中介绍的越狱版是来自开源平台 Hugging Face: 70B:https://huggingface.co/huihui-ai/DeepSeek-R1-Distill-Llama-70B-abliterated 32B:https://huggingface.co/huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated 7B:https://huggingface.co/huihui-ai/DeepSeek-R1-Distill-Qwen-7B-abliterated-v2 这个越狱版并非我们制作,而是由hugging face的网友从deepseek r1 和 Qwen 以及 Llama 蒸馏而来,它的性能无法代替官方的满血版。 更多的DeepSeek 越狱版:https://huggingface.co/huihui-ai 要在本地部署 DeepSeek 的官方满血版本(671B 参数),需要满足以下硬件配置要求: CPU:64 核以上的服务器集群 内存:至少 512GB 存储:推荐 2T 以上的可用高速固态硬盘 GPU:多节点分布式训练环境,例如 8 张 NVIDIA A100 或 H100 显卡 电源:1000W 以上的高功率电源 散热系统:高效散热系统以确保设备稳定运行2月17日 20:20
-
回答3
只看作者最新最热