划重点
01深度学习公司深度求索推出全新大模型DeepSeek-V3,671B参数,激活37B,已在14.8T token上预训练。
02DeepSeek-V3在多项评测中超越其他开源模型,如Qwen2.5-72B和Llama-3.1-405B,性能上与GPT-4o和Claude-3.5-Sonnet相当。
03然而,此前DeepSeek-V3曾误称自己是ChatGPT,引发质疑。
041月2日,深度求索表示,其模型API服务每百万输入tokens定价0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens定价8元。
05为此,深度求索为全新模型设置45天的优惠价格体验期。
以上内容由腾讯混元大模型生成,仅供参考
海报新闻记者 赵恩 上海报道
近日,有着“AI界的拼多多”之称的深度求索发文称,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。
深度求索表示,DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
来源:深度求索公众号
推文称,DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型。在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源和闭源模型。
此前有媒体报道,在DeepSeek-V3提问“你是什么模型”时,其回复称“我是一个名为ChatGPT的AI语言模型,由OpenAl开发”,并称该模型是“基于GPT-4架构”。该回复引发质疑,有人认为DeepSeek-V3可能是在ChatGPT的数据基础上训练的。
1月2日,海报新闻记者向深度求索发出采访请求,公司表示暂不接受采访。
不过,记者实测发现,面对类似问题,DeepSeek-V3目前的回复已经有所调整:“我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-V3。如您有任何问题,我会尽我所能为您提供帮助。”记者输入问题“为什么此前把自己称作ChatGPT”后,DeepSeek-V3回答:“我一直把自己称为DeepSeek-V3,这是一个由中国公司DeepSeek开发的人工智能助手。如果有任何混淆,可能是由于误解或技术错误。”
记者试用DeepSeek-V3截图
杭州深度求索人工智能基础技术研究有限公司成立于2023年7月,由幻方量化创立,注册资本1000万元。
幻方量化官网显示,2008年,创始团队开始使用机器学习等技术探索全自动量化交易。2015年,幻方量化创立,依靠数学与人工智能进行量化投资。2016年10月,第一份由深度学习生成的交易仓位上线执行。2017年,全面应用深度学习技术进行交易。2019年,幻方量化跻身百亿私募。
凭借极低的推理成本,深度求索曾被称为“AI界的拼多多”,其大模型产品曾直接促使腾讯、阿里、百度、字节等大厂产品降价。
2024年12月26日,深度求索表示,随着性能更强、速度更快的DeepSeek-V3更新上线,其模型API服务每百万输入tokens定价0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens定价8元,以期能够持续地为大家提供更好的模型服务。同时,深度求索决定为全新模型设置45天的优惠价格体验期。
【如果您有新闻线索,请向我们报料,报料邮箱:zhongbobaoliao@163.com】