手机也能本地部署DeepSeek-R1
Key Takeaway
- DeepSeek R1模型可以在手机等本地设备上部署运行,PocketPal AI等免费APP支持。
- 本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势,是AI普及的趋势。
- DeepSeek R1的发布对AI行业是重大利好,推动了AI普及,促进了模型厂商的竞争,并引发了对算力使用和开源模型价值的反思。
- 在桌面端,Ollama是本地部署大模型的最佳工具,支持多种开源模型,并可与Open WebUI等前端工具结合。
- 移动端本地部署主要选择1.5B等小尺寸模型,未来随着技术发展,移动端AI能力将更强。
Full Content
使用DeepSeek R1,不一定非要通过官方的APP。在本地运行也可以。甚至,在手机上。
我手里这台是iPhone 12 mini,已经老得不能再老了,我一直没舍得换。结果它居然也能跑R1,这让我非常惊讶。
我用的是PocketPal AI这款免费APP,之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件,生成挺流畅的。你看,跟官方APP里的表现一样,也是先给出思考过程,然后再给出结果。在Benchmark页面进行测试,可以看到详细的数值:每秒有大概20个Token;峰值内存占用大概是33%。
如果是新一点的iPhone,那么可以下载更高的精度,获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度,每秒输出16个Token。再高就没反应了,比如FP16。
说实话,比起DeepSeek R1 1.5B,我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦,而且最终的结果不见得有质的提升。Anyway,大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型,对你不一定适用。
另外,我知道这个视频发出去之后,肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。
老网友应该有印象,在很多年前,谷歌推出Chromebook,一个上网本。它的办公软件都是网页版的应用,谷歌全家桶。按照那些人的逻辑,这就够了啊?为什么还要本地版的Office全家桶呢?结果市场给出了选择。
AI在端侧的落地也一样。如果都依赖云端算力,AI绝对不可能普及。比如,需要网络接入;用的人多了可能要排队;还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。
所以,依靠端侧算力,在移动端运行1.5B或者3B的模型,在桌面端运行7B或者14B的模型,一定是未来一两年的发展趋势。
对超级个人来说,拥有更多算力,就能跑更强大的模型。知道每种设备使用AI的方法,就能更自由地接入AI。这些组合在一起,就能让你在那些普通人面前获得Unfair Advantage。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:在端侧部署DeepSeek R1。
过年这段时间特别热闹。年前先是川普发币。看起来很不合理,但仔细想想也没啥毛病。人家要干碎一切,发个币算什么?
这一波过去没多久,DeepSeek来了,闹了一整个假期。我的观点很简单:这对所有人来说,都是重大利好。
第一,一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型,能让更多的普通用户用上AI。
我在朋友圈里看到,好多之前基本不用AI的小伙伴,这次都用DeepSeek了。前几天跟亲戚聚餐,一位阿姨居然也主动聊起DeepSeek,还向我安利他们的APP,非要我下载体验一下。
能普及AI,就是功德无量的事儿。
第二,R1推出之后,业内都在各种反思。比如,之前对算力的使用是不是过于粗放了,等等。同时也给那些闭源厂商更多紧迫感,比如OpenAI,抓紧推出新的模型和产品。你看,O3 mini不就来了?
我相信经过这一波,各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”,现在看是不是特别可笑?
第三,对于投资者来说,这一波既是卖出英伟达的机会,也是买入英伟达的机会。在大跌的那一天,我就开始买入了。逻辑很简单,我在社群里也发了:
DeepSeek的方法如果是可Scalable的,那么买卡还得继续。
他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡,比如从新加坡。
所以,这一波下跌只是一时的恐慌,以及之前涨了那么多,市场普遍预期要回调,等待新的故事。所以大家都不约而同演了这么一出:
普罗大众开心了,扬眉吐气了。资本落袋为安了,开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。
我还是坚定认为,在AI这件事儿上,不存在弯道超车。
中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为,从零到一的基础研发,人家都完成了,也分享出来了。然后我们跟上去做应用落地。你再看中国的VC,有哪家敢真的去投从零到一的项目?他们拿出来吹的投资成绩单,全都是对现成红利的收割。
但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。
DeepSeek和国内的AI公司有很大不同,不管是钱还是人都不太一样。这也许就是他们能成的原因。
好了,这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。
大家日常使用的话,如果是在桌面端,最简单的方法肯定是通过我们的老朋友——Ollama。
来到Ollama官网的DeepSeek R1页面,就会看到原始模型,以及蒸馏出来的六个小尺寸模型,从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。
3060跑7B,每秒Token有46,非常丝滑顺畅。跑8B,每秒Token有44,差不多。跑14B,速度降到26,也完全能接受。
注意:这是在我开着OBS录屏情况下的数据。没开的话,每秒Token数量会多四五个。
再来看M4 Mac mini的情况。24G统一内存,跑7B,每秒Token有19。跑8B,每秒Token有17。跑14B,每秒Token只剩10。
看起来,Mac mini的主要优势是功耗。如果追求性能的话,还得是PC。
当模型跑起来之后,要进行对话,可选的APP就很多了。
如果你不需要那么多功能、就是想清爽一点的话,可以用Enchanted。
如果你还有RAG之类的需求,可以用AnythingLLM,去年我推荐过好多次。它安装起来很方便,不需要通过Docker。Docker真的会劝退很多人。
此外,LobeChat、Typingmind等等产品都支持接入Ollama。这方面的应用已经非常丰富了,大家可以随意挑选。
要在移动端使用的话,7B肯定跑不动,只能选择1.5B的尺寸。
至于运行模型需要的APP,选择也不少。比如我之前花钱买了这个,它的好处是除了支持本地运行之外,还可以连接OpenRouter或者你自己的服务器。但它的缺点是,支持的开源模型太少了,只有列表里的这些。
所以我最终选择了PocketPal AI。它支持从Hugging Face下载模型文件。这种感觉就像是连上了汪洋大海。
打开APP,点击右下角的加号按钮。这时,你可以选择从本地加载,也就是你已经下载好了的模型文件,或者去Hugging Face下载。我这边选择从Hugging Face。在输入框里输入几个关键词就能找到你想要的模型。
之后的使用就很简单了:加载模型,开始对话。唯一需要注意的地方是,在设置里把上下文长度调高一些。不然可能只有思考过程,给不出最终结果。
今天的开源模型发展速度非常快。新的模型一般都会有全尺寸覆盖。比如阿里的Qwen,2.5包含七个尺寸;VL也有3B版本。想象一下,过个半年到一年,还是手机能跑的小尺寸,模型性能更强,多模态更成熟。到那个时候,你就理解本地部署的好处和必要性了。
OK,以上就是本期内容。想进一步讨论AI,就来我们newtype社群。我都在。那咱们下期见!