首页 > 游戏资讯 > 应用教程

阿里云发布最强开源大模型Qwen2，颠覆Llama 3，比闭源模型更强

发布时间：2024-10-14浏览：97

智东西网6月7日报道今天，阿里云正式开源统一千文Qwen2系列机型。其中，Qwen2-72B已成为全球最强大的开源型号。

Qwen2有多强？一句话总结：在全球权威评测中，性能超过了美国最强大的开源模型Llama3-70B，也超过了文信4.0、豆宝pro、混元pro等众多中国大型闭源模型。

Qwen2为何能突破大型开源模型的性能天花板？今天，阿里云不仅开放了Qwen2系列模型免费下载，还首次公开了模型制作背后的“秘籍”。相关重要技术细节将于近期公布。

Qwen2下载地址：https://modelscope.cn/organization/qwen

大家可以在魔界、抱脸免费下载Qwen2系列模型

一、干翻Llama 3-70B，赶超闭源模型，Qwen2最强开源能力一览

此次新开源的Qwen2系列包括五种尺寸的预训练和指令微调模型，分别是：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2- 72B。

Qwen2系列包括五个尺寸的型号版本

与今年2月推出的同易千文Qwen1.5相比，Qwen2在整体性能上实现了代际飞跃。

在权威模型评测排行榜OpenCompass中，此前开源的Qwen1.5-110B已经领先于文信4.0等一批中国闭源模型。这也意味着新开源的Qwen2-72B继续扩大对这些闭源型号的领先优势。

Qwen1.5-110B已经领先很多闭源机型

与Llama3-70B、Mixtrl-8x22B等目前最好的开源模型相比，Qwen2-72B的能力也完全超越了它们。

在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等十多项国际权威测试中，Qwen2-72B在自然语言理解、知识、代码、数学和多语言在诸多能力上表现出色，无疑是全球最强大的开源大型模型。

Qwen2-72B在十多项全球权威测试中超越了目前最好的开源型号

就小型号而言，Qwen2系列型号基本可以超越同规模甚至更大型号的最佳开源型号。与最近推出的最佳模型相比，Qwen2-7B-Instruct 在多项评估中仍能取得显着优势，尤其是在代码和中文理解方面。

Qwen2-7B-Instruct在多项评测中取得显着优势

目前，Qwen2系列已在MoTa社区ModelScope和阿里云百联平台上线。开发者可以在MoTa社区体验和下载模型，也可以通过阿里云百联平台调用模型API。

二、一年发三代模型，稳坐开源大模型铁王座，阿里云首次披露创新“秘籍”

Qwen2 的发布距离阿里云今年2 月推出Qwen1.5 仅仅三个多月。

与上一代Qwen1.5相比，Qwen2全面提升了逻辑推理、多语言能力、长文本处理、编码、数学等能力。

1.编码和数学能力大幅提升，碾压Llama 3

代码方面，将CodeQwen1.5的成功经验融入到Qwen2的开发中，实现了多种编程语言的显着改进；数学方面，基于大规模、高质量的数据，Qwen2-72B-Instruct在本次评测中以碾压性优势超越了Llama 3-7B-Instruct。

Qwen2的编码和数学能力大幅提升

2.支持128k长文本，开源代理方案

如下图所示，在Haystack 测试集的Needle 上，Qwen2-72B-Instruct 可以完美处理128k 上下文长度内的信息提取任务。

同时，Qwen2系列其他型号的表现也非常出色：Qwen2-7B-Instruct几乎完美地处理高达128k的上下文； Qwen2-57B-A14B-Instruct 可以处理高达64k 的上下文长度；而该系列中的两个型号较小的型号支持32k 的上下文长度。

Qwen2系列在长文本中表现出色

除了长上下文模型之外，阿里云此次还开源了代理解决方案，可以高效处理百万代币级别的上下文。

3.安全性增强，相当于GPT-4性能

下表显示了在四种多语言不安全查询类别中产生有害响应的大型模型的比例，包括非法活动、欺诈、色情和隐私暴力。

通过显着性检验（P值），Qwen2-72B-Instruct模型在安全性方面与GPT-4相当，并且显着优于Mixtral-8x22B模型。 Llama 3 在处理多语言提示方面表现不佳，因此未包含在比较中。

Qwen2-72B-Instruct在安全性方面相当于GPT-4

模型迭代的速度和强度让阿里云稳坐开源大模型的铁王座。

2023年8月，阿里云成为国内首家宣布开源自研模式的科技公司，推出统一钱文第一代开源模型Qwen； 2024年2月，发布第1.5代开源模型Qwen1.5；不到4个月后，Qwen2就开源了，从而实现了全尺寸、全模态的开源。

不到一年的时间，Qwen系列的72B和110B型号屡次荣登HuggingFace的Open LLM排行榜等开源型号排行榜榜首。

Qwen-72B 荣登HuggingFace 开源大模型排行榜榜首

Qwen1.5-110B荣登HuggingFace开源大模型排行榜榜首

Qwen2-72B荣登HuggingFace开源大模型排行榜榜首

阿拉伯语排行榜上，Qwen2-72B位列第一

同时，阿里云还首次披露了Qwen2开发背后的多项创新方法。

据同易前文技术博客介绍，在Qwen1.5系列中，只有32B和110B模型使用了GQA（Group Query Attention）。这次，各种规模的模型都使用了GQA，大大加速了模型推理，并显着减少了显存占用。

上下文长度方面，Qwen2系列模型在32k上下文数据上训练，可支持128k上下文处理；为了提高模型的多语言能力，团队还对除中文和英文之外的27种语言进行了增强，并相应优化了语言转换问题。

Qwen2针对中英文以外的27种语言进行了增强

在模型训练方面，团队结合了监督微调、反馈模型训练、在线DPO等方法，同时还利用在线模型合并来减少对齐税。这些实践极大地提升了模型的基础能力和模型的智能水平。

在后期大模型的微调过程中，统一钱文团队在扩大训练规模的同时，尝试尽可能减少人工标注，并使用自动化方法来获取高质量的指令和偏好数据，包括数学的拒绝采样，以及代码和指令合规性。代码执行反馈、创意写作的反向翻译、角色扮演的可扩展监督等。

很快，同易钱文团队将推出Qwen2的完整技术报告。

三、超豪华生态阵容，模型下载超1600万，孵化模型应用超1500个

虽然大模型开源与闭源的争论仍在继续，但开源对于大模型生态的积极意义已经成为业界共识，这也是阿里云坚持开源的核心原因大型模型。

中国信息百人会常务理事、阿里云副总裁安晓鹏曾以“攀登珠穆朗玛峰”的形象诠释开源的价值：“生态的价值就是开源的价值。我会派直升机带你从海拔0 5000米到达珠穆朗玛峰大本营，剩下的3000米你就可以爬了。”

高质量的开源模型可以促进大模型生态的繁荣，让大量开发者站在巨人的肩膀上进行创新。从阿里云Qwen系列开源社区的反馈来看，这个生态逻辑确实在发挥作用。

据阿里云官方数据显示，近一个月来Qwen系列机型总下载量翻倍，已突破1600万次。同时，国内外开源社区已出现超过1500个基于Qwen二次开发的模型和应用。

事实上，自今年2月Qwen 1.5发布以来，已有大量开发者敦促更新Qwen2。 Qwen2于6月7日上线后，众多重要开源生态合作伙伴迅速宣布支持Qwen2，包括TensorRT-LLM、OpenVINO、OpenCompass、XTuner、LLaMA-Factory、Firefly、OpenBuddy、vLLM、Ollama等。

Qwen系列拥有多个重要开源生态合作伙伴

从全球开源大模型竞争格局来看，除了美国Llama开源生态之外，统一千文的Qwen系列已经成为全球开发者的另一个主流选择。

一年前，业内人士普遍认为开源模式与硬碰硬的闭源模式存在较大代沟；现在，开源模型已经展现出了超越最强闭源模型的势头。关于“开源模型大不如闭源模型大”的论点已经成为伪命题。

开源和闭源模型相互追逐、稳步上升，将为企业和开发者带来更广泛、更丰富的模型组合选择，以及更低的AI实施门槛和更好的应用效果。

结语：大模型竞赛升级，开源模型大进化，该闭源派出招了

近几个月来，开源大模型和闭源大模型互相追逐，这种拉锯战愈演愈烈。

首先，Meta 今年4 月发布的Llama 3-70B 追赶了Gemini Pro 1.5 等众多闭源机型，被视为“开源机型将一举超越GPT-4 巅峰的标志” ”;还有今天阿里云推出的Qwen2-72B。再次登顶，不仅追赶Llama 3-70B，还摧毁了大量闭源模型，进一步推动了大模型生态的发展。

尽管通用人工智能（AGI）的大门刚刚打开，但大模型应用创新的奇点还远未到来。正如阿里云智能事业群CTO周敬仁所言，大模型的潜力很大一部分还没有被真正挖掘出来。当越来越多的开发者和公司融入到这个过程中时，将会带来翻天覆地的变化。

坚持开源是加速这一进程的最佳方式。自2023年8月起，阿里云在不到一年的时间里陆续推出了Qwen、Qwen1.5、Qwen2三代开源模型，实现了全尺寸、全模式开源，为大模型提供了强大的引擎开源生态系统。

用户评论

敬情

太厉害了！阿里一直是我最喜欢的云服务商，这次Qwen2真的让人惊艳，性能超乎想象，我早就对这些开源大模型有兴趣了，这下终于可以用到这么强的模型了！

有18位网友表示赞同！

花海

刚看到这新闻就兴奋坏了， endlich!一个超越LaMMA3的开源模型！阿里云真是太牛了，希望Qwen2能应用得更广泛，让更多人能够体验到人工智能带来的便利。

有20位网友表示赞同！

红尘烟雨

闭源模型？算了吧，我永远相信开源！这下再也不用担心使用能力有限的大模型了，期待看到更多的开源项目出现，让AI技术真正服务于每一个人。

有15位网友表示赞同！

熟悉看不清

说“干翻Llama 3”有点夸张吧？虽然Qwen2的确表现出色，但两个模型的训练数据和评估指标不一样，应该比较全面才能得出结论。

有15位网友表示赞同！

ヅ她的身影若隐若现

这让我对开源AI充满了期待！如果真的能比闭源模型还强，那将是巨大的进步，希望看到更多像Qwen2这样的项目出现，推动AI技术的更快发展!

有10位网友表示赞同！

小清晰的声音

阿里云这次表现的确令人振奋，但我觉得更重要的是，我们需要关注的是这些大模型的实际应用场景。只有真正解决实际问题，才能证明他们的价值。

有14位网友表示赞同！

予之欢颜

这文章写的挺不错，介绍得很简洁，容易理解。不过对于小白来说，能不能多解释一些技术细节？

有18位网友表示赞同！

无望的后半生

感觉这个Qwen2还是挺不错的，现在学习AI深度学习模型越来越方便了！希望后续能有更多开源的工具和资源!

有19位网友表示赞同！

来自火星球的我

闭源模型的问题就是不可控，开源模式才能真正实现透明度和可信赖性。这次阿里云做了一件对社会极其有益的事情了，值得支持！

有9位网友表示赞同！

幸好是你

我比较好奇的是Qwen2有哪些具体的应用场景？是专门为某些行业设计的？例如自然语言处理、图像识别等等。

有18位网友表示赞同！

花花世界总是那么虚伪﹌

感觉这种强大的开源模型的出现，会让AI技术发展更加快速！不知道未来会有什么更厉害的模型出现?

有5位网友表示赞同！

(り。薆情海

我一直在寻找一个可以替换谷歌Colab的高效训练平台，不知道Qwen2能不能满足我的需求？期待看到更多关于Qwen2的实战案例！

有7位网友表示赞同！

孤败

对LAMA3来说有点可惜了。不过对于开发者来说，多了一个选择总是好的！我打算尝试一下Qwen2看看效果怎么样。

有12位网友表示赞同！

岁岁年年

“最强开源大模型”？这说法也太夸张了吧？没有进行全面专业的对比测试，就妄下结论是不负责任的。

有20位网友表示赞同！

素颜倾城

我很期待看到更多的研究者和开发者利用Qwen2来进行创新！ Open-source AI 才是未来科技发展的方向！

有6位网友表示赞同！

夏日倾情

阿里云这次的确很有魄力。但这只是个开始，真正考验的是后期模型的维护、更新以及社区的支持力度。

有9位网友表示赞同！

信仰

这个题目太吸引人了吧，我点进去一看居然真的比Llama3强，有点难以置信！不过还是希望官方能提供更多详细的数据和分析，这样才能更全面地了解Qwen2的实力。

有10位网友表示赞同！

稳妥

我一直觉得开源模型才是未来发展的趋势。大家一起共同进步，才能让AI技术更快更好的服务于人类!

有6位网友表示赞同！

还未走i

我对大型語言模型的研究一直很感兴趣。这篇文章介绍了Qwen2的强大功能，让我非常期待看到在实际应用中的表现！

有9位网友表示赞同！

热点资讯