
就像Openai拥有Chatgpt聊天机器人一样,DeepSeek也具有类似的聊天机器人,它带有两种型号: DeepSeek-V3和DeepSeek-R1 。
DeepSeek-V3是我们与DeepSeek应用交互时使用的默认模型。这是一种多功能的大型语言模型(LLM),它是可以处理各种任务的通用工具。

DeepSeek-R1是一种强大的推理模型,用于解决需要高级推理和解决问题的任务。它非常适合编码挑战,这些挑战超出了经过数千次和逻辑问题的编写代码。

使DeepSeek成为耀眼的名声的原因是用于提高效率并补偿NVIDIA的GPU和集体通信库(NCCL)的绩效提高的数学技巧。
简而言之,DeepSeek使用智能数学来避免使用昂贵的HW,例如NVIDIA的H100 GPU来训练大型数据集。
还影响了如何运行和使用模型,因此我们可以在正常(无GPU)计算功率的本地服务器上运行它。
1。低级别近似值以进行更快的计算
DeepSeek的关键优化之一是低级矩阵近似值,它减少了矩阵乘法中所需的操作数量。这些方法没有执行全级矩阵乘法,而是近似具有较低维表示的矩阵,从而大大降低了计算成本。
2。分组查询注意(GQA)以节省内存
GQA重组了在变压器模型中如何计算注意力的方式,从而减少了注意操作所需的记忆带宽。 GQA并没有分别计算每个查询的注意力,而是允许多个查询共享相同的键值对,从而导致:
– 降低记忆消耗
– 更快的推理速度
– 减少冗余计算
3。速度和效率的混合精确培训
DeepSeek使用混合精液训练,其中计算使用FP16/BF16而不是FP32,从而减少了内存足迹和加速训练。但是,为了保持数值稳定性,应用了损耗缩放技术,以确保由于精确截断而不会丢失小梯度。
4。降低计算复杂性的量化
除了混合精液之外,DeepSeek还受益于量化,在量化中,使用较低的精度代表张量(例如,INT8)。这允许更快的矩阵乘法并减少存储器带宽消耗,从而提高训练效率。
5。随机舍入以保持准确性
当使用较低精确的浮点格式时,使用随机舍入来减轻舍入误差的积累,尽管使用降低了精确度,但该模型仍保持高精度。
DeepSeek的数学优化允许使用最低HW上的服务器/PC上运行的更便宜的培训和更轻的型号。
根据用例和要求,运行大型语言模型(LLM)在本地提供了几个优点。以下是有人选择在本地运行LLM的一些关键原因:
1。数据隐私和安全性
- 敏感数据:处理机密或敏感信息(例如医疗,法律或专有业务数据)时,在本地运行该模型可确保数据永远不会离开您的环境,从而降低暴露或违规的风险。
- 合规性:本地部署可以帮助满足监管要求(例如GDPR,HIPAA),该要求授权数据保留本地。
2。控制和自定义
- 完全控制:在本地运行LLM,可让您完全控制模型,其配置以及其运行的基础架构。
- 自定义:您可以微调或修改模型以更好地适合特定需求,而基于云的API可能是不可能或具有成本效益的。
3。成本效率
- 降低的API成本:基于云的LLM服务通常会根据使用(例如,每个令牌或API调用)收费。在本地运行该模型可能对大量或连续使用更具成本效益。
- 无订阅费:本地部署避免了与基于云的LLM服务相关的重复订阅费用。
4。性能和潜伏期
- 较低的延迟:本地部署消除了网络延迟,这对于实时应用程序或低响应时间至关重要时尤为重要。
- 可预测的性能:您可以优化硬件和软件堆栈以确保稳定的性能,而不会受到诸如云服务中断或节流诸如外部因素的影响。
5。离线可访问性
- 没有Internet依赖性:在本地运行该模型允许您在没有可靠的Internet访问的环境中使用它,例如远程位置或安全的设施。
- 灾难恢复:本地部署可确保即使在Internet中断或云服务中断期间,该模型仍然可以访问。
6。透明和调试
- 模型透明度:在本地运行该模型允许您检查其行为,输出和中间步骤,这对于调试或理解其决策过程至关重要。
- 错误分析:当模型在您的控制之下时,您可以更有效地记录和分析错误或意外输出。
7。长期可持续性
- 避免供应商锁定:通过本地运行该模型,您不依赖于特定的云提供商或服务,从而降低了供应商锁定的风险。
- 未来防止:本地部署可确保即使云服务更改其定价,术语或停止服务,也可以继续使用该模型。
8。研发
研究人员和开发人员可以尝试使用模型的架构,培训数据或微调过程,而无需限制云提供商。
您可以通过多种方式在本地运行DeepSeek。
作为K8和容器的粉丝,我选择了容器的方式。
在这里,我在Kubernetes群集上本地运行DeepSeek-R1模型。该集群正在运行在个人笔记本电脑上的VM上。有人可能会说,这种设置并不是真正正确的气概设置,但是可以直接在baremetal上使用相同的K8S配置。就我而言,为了方便起见,我将其运行在VM内。
设置规格:
- 1 VM,带32G 内存和16核 /英特尔I9–9880H CPU @ 2.30GHz。
- 没有使用GPU。
- 分配给VM的50 GB存储。
- Ubuntu 22.04.5 Lts。
- Minikube K8S。
- DeepSeek-R1具有70亿参数(Ollama Docker Image)。
- 打开Web UI。
实际步骤:
1-安装您可以使用的任何K8S发行版。
在这里,我正在使用Minikube K8,并为群集分配14个VCPU和28GB内存。
Minikube开始-CPU = 14-内存= 28672
2-准备任何类型(静态或动态)的K8持续量(PVS),因为后来将被2个PersistentVolumeClaim(PVC)消耗。
注意:如果您使用的是Minikube K8,则可以简单地使用Storage-Provisioner-Gluster插件,如下所示
3-转到https://ollama.com/ ,然后选择您想要的模型。在这里,我正在选择具有140亿参数的DeepSeek-R1。根据您的机器资源选择更少的参数模型。

4-进行运行的K8设置后,通过Kubectl运行以下YAML配置。
它将下载并运行图像:
- DeepSeek-R1 14B型号。
- 开放式webui。
它还将准备所需的卷,并通过端口11434暴露开放式GUI与模型相互作用。
---
apiversion:v1
KIND:PersistentVolumeclaim
元数据:
名称:开放式存储
规格:
AccessModes:
- ReadWriteOnce
资源:
请求:
存储:1GI
---
apiversion:v1
KIND:PersistentVolumeclaim
元数据:
名称:Ollama-Storagory
规格:
AccessModes:
- ReadWriteOnce
资源:
请求:
存储:5GI
---
apiversion:应用程序/V1
类型:部署
元数据:
名称:开放式webui
规格:
复制品:1
选择器:
MatchLabels:
应用程序:开放式Webui
模板:
元数据:
标签:
应用程序:开放式Webui
规格:
容器:
- 名称:Open-Webui
图片:ghcr.io/open-webui/open-webui:latest
env:
- 名称:ollama_base_url
价值:“ http://127.0.0.1:11434”
数量:
-MountPath:/app/backend/data
名称:开放式存储
卷:
- 名称:Open-Webui存储
persistentvolumeclaim:
索赔名称:Open-Webui存储
---
apiversion:应用程序/V1
类型:部署
元数据:
名称:ollama
规格:
复制品:1
选择器:
MatchLabels:
应用:ollama
模板:
元数据:
标签:
应用:ollama
规格:
容器:
- 名称:Ollama
图片:Ollama/Ollama:最新
数量:
-MountPath: /root/.ollama
名称:Ollama-Storagory
卷:
- 名称:Ollama-Storagory
persistentvolumeclaim:
索赔名称:Ollama-Storagory
---
apiversion:批次/V1
善良:工作
元数据:
名称:Ollama-Pull-llama
规格:
模板:
规格:
restartpolicy:永远不会
容器:
- 名称:Ollama-Pull-llama
图片:Ollama/Ollama:最新
命令:[“/bin/sh”,“ -c”,“睡眠3; ollama_host = 127.0.0.1:11434 ollama ollama luck deepseek-r1:14b”]
数量:
-MountPath: /root/.ollama
名称:Ollama-Storagory
卷:
- 名称:Ollama-Storagory
persistentvolumeclaim:
索赔名称:Ollama-Storagory
根据您的Internet连接,将需要大约2分钟的时间才能拉出所有必需的图像(〜4.5GB)并将其运行在K8S群集上。
注意:在开始使用模型之前,Ollama拉工作必须处于完整状态。所有其他POD必须处于运行状态。

现在,我们已经有一个本地准备就绪的设置,包括运行型号,其存储空间和裸露的端口。让我们开始测试:
第一个问题:什么是晶体管?
思考和写答案大约需要大约50秒

第二个问题:名称(ANA)中有多少(a)字母?
一些模型在此类问题上挣扎。在我的DeepSeek-R1本地设置中,大约需要大约80秒钟才能正确思考和回答。

以下是我的Linux VM的快照,所有分配的CPU都疯狂地试图在回答问题时运行该模型。

愉快的学习!
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除