图片-精准获客

深夜重磅消息!DeepSeek-V3 上新啦!

昨晚,DeepSeek-V3 低调完成升级,新模型版本为 DeepSeek-V3-0324,参数量达 6850 亿,相较于上个版本的 6710 亿,参数增幅较小。

图片[1]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

从发布时间和技术特点推测,DeepSeek-V3-0324 很可能是 DeepSeek-R2 的基础架构。依据 DeepSeek 一贯先推出基础模型、几周后再发布专门推理增强版的产品发布节奏,DeepSeek-R2 很可能在几周后上线。

升级后的 V3 在代码和数学推理能力方面显著提升。在代码领域,不少网友表示眼前一亮。对比上一版,从一个球在超立方体弹跳的 Python 脚本,就能看出 V3 代码性能的改善。

图片[2]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

甚至,它还能解锁 Claude 3.7 Sonnet 的很多玩法,在代码方面可与之正面较量。

值得注意的是,DeepSeek V3 采用了 MIT 开源协议,而上个版本还是自定义许可证。这意味着可以自由修改、分发模型,还支持模型蒸馏和商业化应用。

图片[3]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

模型文件总计 641GB,主要以 model-00035-of-000163.safetensors 形式存在。尽管 685B 的参数量巨大,但它也能在消费级设备上运行。苹果机器学习工程师 Awni Hannun 基于 MLX 框架和 4-bit 量化,在 512GB M3 Ultra 上实现了超过 20 token/s 的运行速度。

图片[4]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[5]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

这种量化方式将模型的磁盘占用空间直接减少到 352GB。

图片[6]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

有 M3 Ultra 的用户,可以按照以下方式使用 llm-mlx 运行:

llm mlx download-model mlx-community/DeepSeek-V3-0324-4bitllm chat -m mlx-community/DeepSeek-V3-0324-4bit

若本地无法运行,除了官网,还能在 OpenRouter 上体验。

图片[7]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

体验地址:openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

与某些在发布前数月就大肆宣传造势的以 O 和 A 开头的 AI 公司相比,DeepSeek 这种低调做事的风格截然不同。它没有白皮书和博客文章,只有一个空白的 README 文件和模型权重本身,上线即可直接下载使用。

新版 V3 代码能力飙升,追平 Claude 3.7

遗憾的是,DeepSeek 尚未公布新版模型的系统卡,暂时无法了解更多技术细节。

图片[8]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

不过,这并未影响全网对新模型的热情,已有机构和网友对 V3 展开了通用能力、代码、数学等多维度测评。

根据网友 Xeophon 的自测,DeepSeek-V3-0324 所有指标性能大幅提升,击败了 Claude 3.5 Sonnet,成为目前最强的非推理模型。

图片[9]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

在代码能力方面,DeepSeek-V3-0324 同样能与 Claude 3.5 Sonnet 抗衡。

图片[10]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

另外,在 Aider 的多语言基准测试中,DeepSeek-V3-0324 取得了 55%的成绩,较前代版本显著提升,成为仅次于 Sonnet 3.7 的非推理类模型第二名,其表现可媲美 R1 和 o3-mini 等具备推理能力的模型。

图片[11]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

网友「karminski – 牙医」带来了全网最速的代码实测,新模型直接超越了 DeepSeek R1,与 Claude 3.7 相当。

图片[12]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

在 KCORES 大模型竞技场中,Claude – 3.7 – Sonnet – Thinking 是当之无愧的王者,DeepSeek-V3-0324 以 328.3 分获得第三名,仅次于 Claude 3.5 Sonnet。

图片[13]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

该网友还进行了四项评测,在 20 个小球碰撞测试中,上个版本的结果挤成一团,而 DeepSeek-V3-0324 在物理模拟上表现更好。

图片[14]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[15]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

在 mandelbrot – set – meet – libai 测试中,DeepSeek-V3-0324 变化不大,较初版仅低 2 分,但完成度提升明显。

图片[16]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[17]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

在火星任务测试中,DeepSeek-V3-0324 星球渲染正确,在所有模型中排名第三。

图片[18]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[19]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

在九大行星测试中,DeepSeek-V3-0324 真正绘制出了太阳系的完整图。

图片[20]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[21]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

此外,DeepSeek-V3-0324 在 Misguided Attention 基准上,跃居非推理类模型榜首,甚至超越了 Claude Sonnet 3.7(非推理模型)。

图片[22]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

令人惊讶的是,它现在能解决一些此前只有推理模型才能处理的提示,比如「4 升水壶问题」。V3 – 0324 似乎学会了识别推理循环并跳出循环,这种能力是许多专业推理模型都不具备的。

图片[23]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

颜色越深代表特定提示的正确响应次数越多

接下来,一起看看 DeepSeek-V3-0324 在多项实测中的具体表现。

网友实测,一个提示即出网页

网友「Deepanshu Sharma」称,更新后的 DeepSeek-V3-0324 非常强大。他用这个新模型一气呵成创建了一个新网站,编写了 800 多行代码,且一次都没出错。

Deepanshu 写道:「看到这些厉害的开源模型不断给大公司施加压力,迫使他们以低成本构建更好的模型,真是太棒了!」

图片[24]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[25]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

网友「Risphere」体验完新的 DeepSeek-V3-0324 后表示,其在编码方面已与 Claude 3.7 Sonnet 处于同一水平。要知道,Claude 模型一直是公认代码能力最强的模型。

图片[26]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

图片[27]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

不仅如此,Risphere 认为 DeepSeek-V3-0324 在前端开发方面超越了 o1 – pro 和 GPT – 4.5。要知道,o1 – pro 需付费 200 美元每月的 ChatGPT Pro 会员才可体验。

图片[28]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

Petri Kuittinen 体验完 DeepSeek-V3-0324 后认为:「Anthropic 和 OpenAI 遇上麻烦了!」他使用一段简短的提示词就制作出了一个精美的响应式网页,提示词如下:

Create a great – looking responsive front page for AI company. Include everything in one HTML5 file.(为 AI 公司创建一个看起来很棒的响应式首页。将所有内容包含在一个 HTML5 文件中。)

Petri 觉得 DeepSeek-V3-0324 在前端编程上优于 DeepSeek-R1。他完成的这个网站共有 958 行代码,包括所有图像,且适合在手机上观看。

图片[29]-深夜重磅消息!DeepSeek-V3 上新啦!-精准获客

<img decoding="async" loading="lazy" src="https://image.woshipm.com/2025/03

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容