通义千问发布超大规模MoE模型 号称优于DeepSeek V3 阿里美股升7%

2025-01-29 11:03

通义千问发布超大规模MoE模型 号称优于DeepSeek V3 阿里美股升7%
通义千问发布超大规模MoE模型 号称优于DeepSeek V3 阿里美股升7%

中国国产人工智能(AI)大模型DeepSeek横空出世,因其超高性能和极低训练成本震惊市场之际, 阿里巴巴 (9988)旗下阿里云宣布通义千问Qwen 2.5-Max超大规模MoE模型,号称优于DeepSeek V3,阿里美股(BABA)周二升6.7%,今日夜盘再升1.2% 

阿里云公布了其全新通义千问 Qwen 2.5-Max 超大规模MoE模型,声称可以通过API的方式进行访问,也可以登录Qwen Chat进行体验,例如直接与模型对话,或者使用 artifacts及搜索等功能。

据介绍,通义千问 Qwen 2.5-Max 使用超过20万亿token的预训练数据,以及精心设计的后训练方案进行训练。阿里云更直接对比了指令模型的性能表现,比较对象包括 DeepSeek V3、OpenAI旗下的GPT-4o 和 Claude-3.5-Sonnet,

阿里云指,在Arena-Hard、LiveBench、LiveCodeBench 和GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现超越了DeepSeek V3,同时在MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩,相信随着后训练技术的不断进步,下一个版本的Qwen2.5-Max将会达到更高的水平。

相关文章:

DeepSeek引爆AI产业大洗牌 黄国英吁减持Nvidia 「有排返唔到转头」何启聪看好一类赢家

DeepSeek未能击溃护城河 Nvidia被忽略的本质|晋佳

關鍵字

最新回应

關鍵字

相關新聞

本網站正使用 Cookie

我們使用 Cookie 改善網站體驗。 繼續使用我們的網站即表示您同意我們的 Cookie 政策。 Cookie 政策