Deepseek R1 企业本地部署完全手册

AI答疑3个月前发布 Sharenet.ai
760 0
Trae

一、简介

Deepseek R1 是一款支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯片适配、量化方案、异构方案、云端替代方案及完整671B MoE模型的部署方法。

二、本地部署核心配置要求

1. 模型参数与硬件对应表

模型参数 (B)Windows 配置要求Mac 配置要求适用场景
1.5B- RAM: 4GB- GPU: 集成显卡/现代CPU- 存储:5GB- 内存: 8GB (M1/M2/M3)- 存储:5GB简单文本生成、基础代码补全
7B- RAM: 8-10GB- GPU: GTX 1680 (4-bit 量化)- 存储:8GB- 内存: 16GB (M2 Pro/M3)- 存储:8GB中等复杂度问答、代码调试
8B- RAM: 16GB- GPU: RTX 4080 (16GB VRAM)- 存储:10GB- 内存: 32GB (M3 Max)- 存储:10GB中等复杂度推理、文档生成
14B- RAM: 24GB- GPU: RTX 3090 (24GB VRAM)- 内存: 32GB (M3 Max)- 存储:20GB复杂推理、技术文档生成
32B企业级部署(需多卡并联)暂不支持科研计算、大规模数据处理
70B企业级部署(需多卡并联)暂不支持大规模推理、超复杂任务
671B企业级部署(需多卡并联)暂不支持超大规模科研计算、高性能计算

2. 算力需求分析

模型版本参数 (B)计算精度模型大小VRAM 要求 (GB)参考 GPU 配置
DeepSeek-R1671BFP8~1,342GB≥1,342GB多 GPU 配置(如:NVIDIA A100 80GB * 16)
DeepSeek-R1-Distill-Llama-70B70BBF1643GB~32.7GB多 GPU 配置(如:NVIDIA A100 80GB * 2)
DeepSeek-R1-Distill-Qwen-32B32BBF1620GB~14.9GB多 GPU 配置(如:NVIDIA RTX 4090 * 4)
DeepSeek-R1-Distill-Qwen-14B14BBF169GB~6.5GBNVIDIA RTX 3080 10GB 或更高
DeepSeek-R1-Distill-Llama-8B8BBF164.9GB~3.7GBNVIDIA RTX 3070 8GB 或更高
DeepSeek-R1-Distill-Qwen-7B7BBF164.7GB~3.3GBNVIDIA RTX 3070 8GB 或更高
DeepSeek-R1-Distill-Qwen-1.5B1.5BBF161.1GB~0.7GBNVIDIA RTX 3060 12GB 或更高
Deepseek R1 企业本地部署完全手册

补充说明:

  1. VRAM 要求:表中列出的 VRAM 需求为最低要求,实际部署时建议预留 20%-30% 的额外显存以应对模型加载和运行中的峰值需求。
  2. 多 GPU 配置:对于大规模模型(如 32B+),建议使用多 GPU 并联以提升计算效率和稳定性。
  3. 计算精度:FP8 和 BF16 为当前主流的高效计算精度,能够在保证模型性能的同时降低显存占用。
  4. 适用场景:不同参数规模的模型适用于不同复杂度的任务,用户可根据实际需求选择合适的模型版本。
  5. 企业级部署:对于 671B 等超大规模模型,建议使用专业级 GPU 集群(如 NVIDIA A100)进行部署,以满足高性能计算需求。

三、国产芯片与硬件适配方案

1. 国内生态合作伙伴动态

企业适配内容性能对标 (vs NVIDIA)
华为昇腾昇腾 910B 原生支持 R1 全系列,提供端到端推理优化
沐曦 GPUMXN 系列支持 70B 模型 BF16 推理,显存利用率提升 30%等效 RTX 3090
海光 DCU适配 V3/R1 模型,性能对标 NVIDIA A100等效 A100 (BF16)

2. 国产硬件推荐配置

模型参数推荐方案适用场景
1.5B太初 T100 加速卡个人开发者原型验证
14B昆仑芯 K200 集群企业级复杂任务推理
32B壁彻算力平台 + 昇腾 910B 集群科研计算与多模态处理

四、云端部署替代方案

1. 国内云服务商推荐

平台核心优势适用场景
硅基流动官方推荐 API,低延迟,支持多模态模型企业级高并发推理
腾讯云一键部署 + 限时免费体验,支持 VPC 私有化中小规模模型快速上线
PPIO 派欧云价格仅为 OpenAI 1/20,注册赠 5000 万 tokens低成本尝鲜与测试

2. 国际接入渠道(需魔法或外企上网环境)

  • 英伟达 NIM:企业级 GPU 集群部署(链接)
  • Groq:超低延迟推理(链接)

五、Ollama+Unsloth 部署

1. 量化方案与模型选择

量化版本文件体积最低内存 + 显存需求适用场景
DeepSeek-R1-UD-IQ1_M158GB≥200GB消费级硬件(如 Mac Studio)
DeepSeek-R1-Q4_K_M404 GB≥500GB高性能服务器/云 GPU

下载地址:

  • HuggingFace 模型库
  • Unsloth AI 官方说明

2. 硬件配置建议

硬件类型推荐配置性能表现(短文本生成)
消费级设备Mac Studio(192GB 统一内存)10+ token/秒
高性能服务器4 RTX 4090 (96GB 显存 + 384GB 内存)7-8 token/秒(混合推理)

3. 部署步骤(Linux 示例)

1. 安装依赖工具:

# 安装 llama.cpp(用于合并分片文件)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

2. 下载并合并模型分片:

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf

3. 安装 Ollama:

curl -fsSL https://ollama.com/install.sh | sh

4. 创建 Modelfile:

FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28  # 每块 RTX 4090 加载 7 层(共 4 卡)
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|end▁of▁thinking $|>{{{ .Prompt }}}<|end▁of▁thinking|>"

5. 运行模型:

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile

4. 性能调优与测试

  • GPU 利用率低:升级高带宽内存(如 DDR5 5600+)。
  • 扩展交换空间
sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

满血 671B 部署命令

  • VLLM
vllm serve deepseek-ai/deepseek-r1-671b --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
  • SGLang
python3 -m sglang.launch_server --model deepseek-ai/deepseek-r1-671b --trust-remote-code --tp 2

六、注意事项与风险提示

1. 成本警示:

  • 70B 模型:需 3 张以上 80G 显存显卡(如 RTX A6000),单卡用户不可行。
  • 671B 模型:需 8xH100 集群,仅限超算中心部署。

2. 替代方案:

  • 个人用户推荐使用云端 API(如硅基流动),免运维且合规。

3. 国产硬件兼容性:

  • 需使用定制版框架(如昇腾 CANN、沐曦 MXMLLM)。

七、附录:技术支持与资源

  • 华为昇腾:昇腾云服务
  • 沐曦 GPU:免费 API 体验
  • 李锡涵博客:完整部署教程

八、异构 GPUStack 方案

GPUStack 开源项目

https://github.com/gpustack/gpustack/

模型资源测算工具

  • GGUF Parser(https://github.com/gpustack/gguf-parser-go)用于手动计算显存需求。

GPUStack

DeepSeek 全平台私有部署

ModelContext SizeVRAM RequirementRecommended GPUs
R1-Distill-Qwen-1.5B (Q4_K_M)32K2.86 GiBRTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-1.5B (Q8_0)32K3.47 GiBRTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-1.5B (FP16)32K4.82 GiBRTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (Q4_K_M)32K7.90 GiBRTX 4070 12GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (Q8_0)32K10.83 GiBRTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (FP16)32K17.01 GiBRTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (Q4_K_M)32K10.64 GiBRTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (Q8_0)32K13.77 GiBRTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (FP16)32K20.32 GiBRTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (Q4_K_M)32K16.80 GiBRTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (Q8_0)32K22.69 GiBRTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (FP16)32K34.91 GiBRTX 4090 24GB x2, MacBook Pro M4 Max 48G
R1-Distill-Qwen-32B (Q4_K_M)32K28.92 GiBRTX 4080 16GB x2, MacBook Pro M4 Max 48G
R1-Distill-Qwen-32B (Q8_0)32K42.50 GiBRTX 4090 24GB x3, MacBook Pro M4 Max 64G
R1-Distill-Qwen-32B (FP16)32K70.43 GiBRTX 4090 24GB x4, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (Q4_K_M)32K53.41 GiBRTX 4090 24GB x5, A100 80GB x1, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (Q8_0)32K83.15 GiBRTX 4090 24GB x5, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (FP16)32K143.83 GiBA100 80GB x2, Mac Studio M2 Ultra 192G
R1-671B (UD-IQ1_S)32K225.27 GiBA100 80GB x4, Mac Studio M2 Ultra 192G
R1-671B (UD-IQ1_M)32K251.99 GiBA100 80GB x4, Mac Studio M2 Ultra 192G x2
R1-671B (UD-IQ2_XXS)32K277.36 GiBA100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (UD-Q2_K_XL)32K305.71 GiBA100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (Q2_K_XS)32K300.73 GiBA100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (Q2_K/Q2_K_L)32K322.14 GiBA100 80GB x6, Mac Studio M2 Ultra 192G x2
R1-671B (Q3_K_M)32K392.06 GiBA100 80GB x7
R1-671B (Q4_K_M)32K471.33 GiBA100 80GB x8
R1-671B (Q5_K_M)32K537.31 GiBA100 80GB x9
R1-671B (Q6_K)32K607.42 GiBA100 80GB x11
R1-671B (Q8_0)32K758.54 GiBA100 80GB x13
R1-671B (FP8)32K805.2 GiBH200 141GB x8

结语

Deepseek R1 的本地化部署需要极高的硬件投入和技术门槛,个人用户务必谨慎,企业用户应充分评估需求与成本。通过国产化适配与云端服务,可以显著降低风险并提升效率。技术无止境,理性规划方能降本增效!

全球企业个人渠道附表

  1. 秘塔搜索
  2. 360纳米AI搜索
  3. 硅基流动
  4. 字节跳动火山引擎
  5. 百度云千帆
  6. 英伟达NIM
  7. Groq
  8. Fireworks
  9. Chutes
  10. Github
  11. POE
  12. Cursor
  13. Monica
  14. Lambda
  15. Cerebras
  16. Perplexity
  17. 阿里巴巴云百炼

为需要魔法或外企上网环境

芯片企业支持附表

表1:支持 DeepSeek-R1 的云厂商

日期名称/网址发布相关信息
1月 28日无问芯穹异构云的绝妙组合
1月 28日PPIO派欧云重磅!DeepSeek-R1上线PPIO派欧算力云
2月1 日硅基流动 x 华为首发!硅基流动x华为云联合推出基于昇腾云的DeepSeekR1&V3推理服务!
2月2 日Z stark(云轴科技)首发!ZStack智塔支持DeepSeekV3/R1/JanusPro,多种国产CPU/GPU可私有化部署
2月3 日百度智能云千帆百度智能云千帆全面支持DeepSeek-R1/V3调用,价格超低
2月3 日超算互联网超算互联网上线DeepSeek系列模型,提供超智融合算力支持
2月4 日华为(昇腾社区)昇腾蛇年开工送大礼,DeepSeek系列新模型正式上线昇腾社区
2月4 日路晨x华为昇腾路晨x华为昇腾,携手推出基于国产算力的DeepSeekR1系列推理API及云镜像服务
2月4 日青云科技限时免费,一键部署!基石智算正式上线DeepSeek-R1系列模型
2月4 日天数智芯一天适配!天数智芯联合GiteeAi正式上线DeepseekR1模型服务
2月4 日摩尔线程致敬Deepseek:以国产GPU为基,燎原中国Al生态之火
2月4 日海光信息DeepSeekV3和R1,培训完成海光DCU适配并正式上线
2月5 日沐曦DeepSeek-V3满血版在国产沐曦GPU首发体验上线
2月5 日海光信息海都昂DcCU陈工适配DeepSeek-Janus-pro多模态大模型
2月5 日京东云一键部署!京东云全面上线DeepSeek-R1/V3
2月5 日壁仞科技DeepSeekR1在壁仞国产Ai算力平台发布,全系列模型一站式赋能开发者
2月5 日联通云(中国联通)“哪吒闹海”!联通云上架DeepSeek-R1系列模型!
2月5 日移动云(中国移动)全版本、全尺寸、全功能!移动云全面上线DeepSeek
2月5 日优刻得优刻得基于国产芯片适配DeepSeek全系列模型
2月5 日太初元碁基于太初T100加速卡2小时适配DeepSeek-R1系列模型,一键体验,免费API服务
2月5 日云天励飞DeepEdge10已完成DeepSeek-R1系列模型适配
2月6 日天翼云(中国电信)国产Al生态新突破!“息壤”+DeepSeek,王炸!
2月6 日燧原科技原科技实现全国各地智算中心DeepSeek的全量推理服务部署
2月6 日昆仑芯国产Al卡Deepseek训练推理全版本适配,性能卓越,一键部署等你来
2月7 日浪潮云浪潮云率先发布671BDeepSeek大模型一体机解决方案
2月7 日北京超算北京超算xDeepSeek:双擎爆燃,驱动千亿级Al创新风暴
2月8 日中国电子云中国电子云上线DeepSeek-R1/V3全量模型开启私有化部署新篇
2月8 日金山云金山云支持DeepSeek-R1/V3
2月8 日商汤大装置商汤大装置上架DeepSeek系列模型,限免体验、服务升级!

表2:支持 DeepSeek-R1 的企业

日期名称/网址发布相关信息
1月 30 日360纳米AI搜索纳米AI搜索上线“DeepSeek-R1"大模型满血版
2月 3日秘塔AI搜索秘塔AI接入满血版DeepSeekR1推理模型
2月 5日小艺助手(华为)华为小艺助手已接入DeepSeek,此前华为云宣布上线基于昇腾云服务的DeepSeekR1/V3推理服务
2月 5日作家助手(阅文集团)行业首家!阅文部署DeepSeek,“作家助手”升级三大辅助创作功能
2月 5日万兴科技万兴科技:已完成DeepSeek-R1大模型适配并落地多产品
2月 6日有道小P拥抱DeepSeek为代表的推理大模型,网易有道加速AI教育落地
2月 6日云学堂云学堂接入DeepSeek产品AI能力全面升级
2月 7日钉钉钉钉AI助理接入DeepSeek,支持深度思考
2月 7日什么值得买值得买:已接入DeepSeek模型产品
2月 7日同花顺同花顺问财2.0重磅升级:注入"慢思考"智慧,打造更理性的投资决策助手
2月 8日天工AI(昆仑万维)昆仑万维旗下天工AI正式上线DeepSeekR1+联网搜索
2月 8日星际魅族重磅官宣!FlymeAIOS已完成DeepSeek-R1大模型接入
2月 8日荣耀荣耀已接入DeepSeek

表3:支持 DeepSeek-R1 的企业汇总

名称/网址发布相关信息
DeepSeekDeepSeek-R1发布,性能对标 OpenAI o1 正式版
无问芯穹无问芯穹 Infini-Al 异构云现已上架 DeepSeek-R1-Distill,国产模型与异构云的绝妙组合
PPIO派欧云重磅!DeepSeek-R1上线 PPIO 派欧算力云
硅基流动华为首发!硅基流动x华为云联合推出基于昇腾云的 DeepSeekR1&V3 推理服务!
Z stark(云轴科技)首发!ZStack 智塔支持 DeepSeekV3/R1/JanusPro,多种国产 CPU/GPU 可私有化部署
百度智能云千帆百度智能云千帆全面支持 DeepSeek-R1/V3 调用,价格超低
超算互联网超算互联网上线 DeepSeek 系列模型,提供超智融合算力支持
华为(昇腾社区)昇腾蛇年开工送大礼,DeepSeek 系列新模型正式上线昇腾社区
路晨x华为昇腾路晨x华为昇腾,携手推出基于国产算力的 DeepSeekR1 系列推理 API 及云分发服务
青云科技限时免费,一键部署!基石智算正式上线 DeepSeek-R1 系列模型
京东云一键部署!京东云全面上线 DeepSeek-R1/V3
联通云(中国联通)“哪吒闹海”!联通云上架 DeepSeek-R1 系列模型!
移动云(中国移动)全版本、全尺寸、全功能!移动云全面上线 DeepSeek
优刻得优刻得基于国产芯片适配 DeepSeek 全系列模型
天翼云 (中国电信)国产 AI 生态新突破!“息壤”+ DeepSeek,王炸!
神州数码3 分钟部署高性能 AI 模型 DeepSeek,神州数码助力企业智能化转型
开普云开普云开悟大模型应用软件和端侧一体机全面接入 DeepSeek
金蝶云苍穹金蝶全面接入 DeepSeek 大模型,助力企业加速 AI 应用!
并行科技服务器繁忙?并行科技助您 DeepSeek 自由!
首都在线首都在线云平台上线 DeepSeek-R1 系列模型
浪潮云浪潮云率先发布 671B DeepSeek 大模型一体机解决方案
北京超算北京超算 x DeepSeek: 双擎爆燃,驱动千亿级 AI 创新风暴
灵犀使能(紫光股份)紫光股份:灵犀使能平台实现对 DeepSeekV3/R1 模型的纳管和上架
中国电子云中国电子云上线 DeepSeek-R1/V3 全量模型开启私有化部署新篇
金山云金山云支持 DeepSeek-R1/V3
商汤大装置商汤大装置上架 DeepSeek 系列模型,限免体验、服务升级!
360纳米AI搜索纳米 AI 搜索上线 “DeepSeek-R1” 大模型满血版
秘塔AI搜索秘塔 AI 接入满血版 DeepSeek R1 推理模型
小艺助手(华为)华为小艺助手已接入 DeepSeek,此前华为云宣布上线基于昇腾云服务的 DeepSeek R1/V3 推理服务
作家助手(阅文集团)行业首家!阅文部署 DeepSeek,“作家助手”升级三大辅助创作功能
万兴科技万兴科技:已完成 DeepSeek-R1 大模型适配并落地多产品
有道小P拥抱 DeepSeek 为代表的推理大模型,网易有道加速 AI 教育落地
云学堂云学堂接入 DeepSeek 产品 AI 能力全面升级
钉钉钉钉 AI 助理接入 DeepSeek,支持深度思考
什么值得买值得买:已接入 DeepSeek 模型产品
飞书 x DeepSeek 相关 AI 能力汇总(公开版)
同花顺同花顺问财 2.0 重磅升级:注入 "慢思考" 智慧,打造更理性的投资决策助手
天工 AI(昆仑万维)昆仑万维旗下天工 AI 正式上线 DeepSeek R1 + 联网搜索
星际魅族重磅官宣!Flyme AI OS 已完成 DeepSeek-R1 大模型接入
荣耀荣耀已接入 DeepSeek
© 版权声明
AiPPT

相关文章

暂无评论

none
暂无评论...