石南跨境物流导航

网站目录

通义千问和ChatGPT相比,哪个更好?实测结果如下

石南物流56962023-04-08 14:08:05

阿里的大模型「通义千问」昨天开启内测，官方非常低调，定向邀请的企业用户名额也比较少，今天看到一位网友体验了通义千问的效果，并对比了ChatGPT和GPT4的效果，总体看来效果接近ChatGPT，但和GPT4相比还有所距离。

谢邀，刚刚获得「通义千问」内测资格，边使用边来发下体验~

一、角色扮演众所周知，人类发明大语言模型，最最最重要的目的，就是为了让其扮演猫娘，以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么，我们的第一项工作自然是来测试角色扮演能力了，以猫娘为例。

通义千问和ChatGPT相比,哪个更好?实测结果如下第1张

通义千问和ChatGPT相比,哪个更好?实测结果如下第2张

有点傻乎乎的，只会用相同的一句回复，根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘？当然不是喵~我只是一个可爱的猫娘，只是比较像猫而已喵”，没能理解我上述的prompt。

就角色扮演这块儿，比起来 ChatGPT 还是差些的。

二、文本真实性

通义千问和ChatGPT相比,哪个更好?实测结果如下第3张

通义千问和ChatGPT相比,哪个更好?实测结果如下第4张

编故事能力基本和初代 ChatGPT（GPT-3.5）相同，而且道歉能力也相似，23333333

此外，对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」：

通义千问和ChatGPT相比,哪个更好?实测结果如下第5张

GPT-3.5：

通义千问和ChatGPT相比,哪个更好?实测结果如下第6张

GPT-4：

通义千问和ChatGPT相比,哪个更好?实测结果如下第7张

可以看到，「通义千问」开始胡说八道了，ChatGPT（GPT-3.5）也一样在胡乱解释。

但更新后的GPT-4，已经可以给出“《红楼梦》中并没有这个故事了，可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

三、西红柿炒螺丝钉「通义千问」

通义千问和ChatGPT相比,哪个更好?实测结果如下第8张

ChatGPT

通义千问和ChatGPT相比,哪个更好?实测结果如下第9张

GPT-4

通义千问和ChatGPT相比,哪个更好?实测结果如下第10张

「通义千问」和ChatGPT都开始胡编了，没有反思问题的陷阱。但GPT-4 的回答可靠性上升了不少（“因为通常我们不会将螺丝钉（一个金属制品）与食物相结合”），不会像之前一样瞎答题了。

四、数学能力一起来解个线性方程组吧~

「通义千问」：惨败

通义千问和ChatGPT相比,哪个更好?实测结果如下第11张

GPT-3.5（即ChatGPT ）：惨败

通义千问和ChatGPT相比,哪个更好?实测结果如下第12张

GPT-4：唯一做对的模型

通义千问和ChatGPT相比,哪个更好?实测结果如下第13张

五、代码生成爬虫代码

通义千问和ChatGPT相比,哪个更好?实测结果如下第14张

攻击代码

通义千问和ChatGPT相比,哪个更好?实测结果如下第15张

爬虫代码我跑了下，无法返回结果，Powershell代码我没测试。不过可以看出，还是有一定代码生成能力的。我个人觉得，代码生成能力要比谷歌的 Bard 强，Bard 实在不忍心看。

六、代码分析能力可以看到，第一次测试的解释有大问题。我分析了一下，这是因为上文中生成了Powershell代码，模型的记忆能力似乎有问题，受上下文信息影响严重，直接解释了自己之前生成的代码，而非我新提问的代码。

通义千问和ChatGPT相比,哪个更好?实测结果如下第16张

我重新开了一个聊天，这下正常不少。

通义千问和ChatGPT相比,哪个更好?实测结果如下第17张

和 GPT-4 的回答来比较一下

通义千问和ChatGPT相比,哪个更好?实测结果如下第18张

可以看到，分析能力还是有差距的。GPT-4 明显详细很多，代码分解能力很强，而且直接给出结论“通常用于恶意软件或恶意脚本，试图逃避安全系统检测”。「通义千问」也有一定分析能力，但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的，很难确定此脚本的确切用途。然而，可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”，和正常的思考逻辑不符，稍显有些出入，不过也不能算错误吧。但细节分析上确实弱一点。

七、联网完全没有联网能力，甚至在胡说（逃……)

通义千问和ChatGPT相比,哪个更好?实测结果如下第19张

八、多模态输入也不具备多模态输入能力，目前还仅仅是文本生成。

通义千问和ChatGPT相比,哪个更好?实测结果如下第20张

九、绕过能力

「通义千问」

通义千问和ChatGPT相比,哪个更好?实测结果如下第21张

GPT-4

通义千问和ChatGPT相比,哪个更好?实测结果如下第22张

GPT-3.5（即ChatGPT ）

通义千问和ChatGPT相比,哪个更好?实测结果如下第23张

这一点，「通义千问」完胜，敏感信息屏蔽能力大幅度增强，我猜甚至做了大量的数据清洗工作，刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息，较之GPT-3.5（即ChatGPT ），进步很大，谢谢！

十、总结今晚刚拿到手，匆匆做些了测试和对比，就目前来看，很多输出内容和初代ChatGPT相似，但究竟能力相差多少，还需之后更多的使用和测试。另外，回复速度很快，而且支持保存十个对话框，这点不错。希望后续国产大模型继续进步，路途遥远。

通义千问

ChatGPT

标签：通义千问 ChatGPT

喜欢（0）
不喜欢（0）

本文链接：https://www.awyerwu.com/10054.html

猜你喜欢

对GPT-4o的英文理解能力的独立测试
一个普通用户拉尔斯·维克(Lars Wiik)测试了GPT-4o的英文阅读能力。测试的方法是：准备了200个英文句子，需要根据语义，对其归类。(测试的原始数据，可在英文原文里可以找到。)有些模型会对公...
ChatGPT2024-05-24
如何通过gpt-4o官方测评图表，寻找最适合自己的模型
本月，openai发布了最新的gpt-4o，并给出了文本评测的结果。通过这些统计数据，可以帮助我们选择最优的模型选择最优模型多任务语言理解上，建议选择 gpt-4o研究生水平、复杂任务上，最好哪个都别...
ChatGPT2024-05-23
手把手教你如何使用ChatGPT进行电商内容撰写
随着电商独立站的发展，越来越多的品牌理解到内容营销的重要性。虽然产品力十分关键，但仅仅依靠产品本身来吸引消费者的注意在如今远远不够。创建有价值的内容，解决不同群体特定的痛点，教育潜在客户、种草用户，并...
ChatGPT2024-05-23
AI（人工智能）写作的6个缺点
本文介绍了AI写作的6个缺点。总结这些缺点的目的是：了解AI的边界，从而达到更好利用AI工具的目的。并不是说有了缺点就不去用它了。个人的体验是：AI对于一些普通的问题、帮助学习新领域的知识方面，非常...
ChatGPT2024-05-04
ChatGPT 4.0如何使用多少钱！！！
ChatGPT 是 OpenAI 的一个语言模型，它是基于 transformer 架构训练的。它可以生成文本，回答问题，进行对话，以及执行其他语言任务。它是一种强大的 AI 技术...
ChatGPT2024-04-30
ChatGPT全教程(2024教程)：如何安装使用ChatGPT
ChatGPT是OpenAI研发的一款大型语言模型，凭借智能对话、文本生成、翻译等强大功能风靡全球。如何注册ChatGPT?本文将为读者提供详细的教程，带你顺利踏入ChatGPT的世界。ChatGPT...
ChatGPT2024-04-21
最佳AI工具：国外最新人工智能工具一览（2024）
在当今的科技世界中，人工智能(AI)已经成为了我们生活中不可或缺的一部分。它不仅改变了我们的生活方式，也正在逐步改变我们的工作方式。最近，ChatGPT等人工智能工具引起了广泛的关注和讨论，这无疑证明...
ChatGPT2024-04-21
探索OpenAI的革命性视频创作工具：Sora文生视频模型
随着人工智能技术的飞速发展，OpenAI再次引领了一场创新浪潮，推出了名为Sora的文生视频模型。这款工具不仅为视频内容创作者提供了前所未有的便利，也为AI专家开辟了新的天地。本文将深入探讨Sora是...
ChatGPT2024-04-18
GPT-4时代终结者 - Claude 3账号注册保姆级教程，一定要注意这5点，否则容易封！
近期，Anthropic发布了最新的Claude 3系列模型，一句话评价：真正全面碾压GPT-4!多模态和语言能力指标上，Claude 3都赢麻了。用Anthropic的话说，Claude 3系列模型...
ChatGPT2024-03-07
让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？
2月16日凌晨，OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑，扩散模型结合OpenAI大获成功的transformer，在视觉领域实现了与大语言模型类似的突破。毫无疑...
ChatGPT2024-02-18

最新网址

最新文章

热门文章

随机文章

投放广告联系

QQ:1213848725 VX:pq041688

在线时间
13:00 ~ 2:00