支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

挑战用不到2000块钱的主机本地部署运行llama3-70b

发布日期:2024-04-26 07:49:19 浏览次数: 4299
作者:腾哥聊产品

微信搜一搜,关注“腾哥聊产品”



大家好, 今天我们来挑战一下,能不能用2000块钱的电脑跑llama3-70B大模型。


年初的时候,我配置了一台不到2000块钱的AI主机。《花了不到2000元,撸了一台AI主机,本地部署大模型


我们来看看这个主机配置。(后面升级了内存和硬盘,总计2000多一点)

配置 商品 价格
主板+CPU 精粤X99-D3大板  +拆机至强E2666 V3 368
风扇 全新四铜管散热 33
内存 拆机三星服务器内存DDR3 32G * 2 170
硬盘 全新海康威视1T SSD NVME协议 378
电源 拆机台达750W电源 212
显卡 拆机NVIDIA TESLA P40   24G显存 824
显卡风扇 全新改装风扇 55
亮机显卡 拆机AMD HD3850 1G(带HDMI) 42
机箱 全新随便挑的机箱 49

总计 2131


显卡用的是Tesla P40 24G显存的显卡,还有64G内存。

现在发现这张显卡已经涨了一倍了,而且全网断货。差不多配置的主机整机,卖到近3000块钱。


那我们今天来看看,这个主机能不能跑得起llama3-70b大模型。


我用的模型部署工具是ollama,我们可以在ollama官网上下载llama3:70b大模型。

这里我已经下载好了。


我们看看现在主机资源消耗。

还可以在cmd命令行里输入nvidia-smi,看看显卡的使用情况。



现在我们运行 ollama run llama3:70b,提问:who are you


真的是可以运行的,但是有点慢,大概每秒只能生成一个token。

看看这个时候的资源使用率,显存基本用满了,内存也用了30多G。


慢的原因是一方面是模型参数量比较大,本身的推理速度就会比较慢,另外由于显存不够用,把一部份参数放在内存里了,要用的时候呢,再把内存里的参数调出来,这里面要不断地传输交换数据。


据说mac电脑用的统一内存架构,内存显存全部共享容量。如果内存够的话,能够流畅地运行70b大模型。我没有这么高配的mac,如果有尝试成功的朋友,可以分享一下。


llama3-70b大模型,虽然在中文的表现上还不是很好,但是在数学、推理、代码生成等方面能力还是很不错的。

用70b模型微调后,用在代码生成、Agent规划、工具调用这些对中文理解要求不是特别高的场景非常适合


现在国内很多云平台,已经推出了llama3的开发者环境,企业、开发者都可以很轻松地做微调。大家有什么想法,评论区交流。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询