众力资讯网

测试表明：百度的文心一言和阿里巴巴的通义千问都表现十分糟糕！ OpenAI的

2023-04-13 21:18:29 我为科技狂鸭社会

测试表明：百度的文心一言和阿里巴巴的通义千问都表现十分糟糕！ OpenAI的GPT-4随机性出了20道不是很复杂的数学和逻辑类问题，用来测试谷歌的Bard、OpenAI的ChatGPT-3.5、百度的文心一言、阿里巴巴的通义千问。结果表明：Bard做对了所有题目，并给出了详细的解题过程；ChatGPT表现也不错，10道数学题全部做对，逻辑题只做错了1个；文心一言做对了4道数学题和2道逻辑题；通义千问做对了1道数学题和3道逻辑题。从测试结果不难看出，文心一言与通义千问在数学和逻辑推理方面的能力都很差，根本无法与谷歌的Bard和OpenAI的ChatGPT-3.5相匹敌，当然更加说不上去与OpenAI的GPT-4相比较了。微软今年3月份的一篇论文认为，GPT-4可以看做是通用人工智能AGI的早期版本，尤其是GPT-4有了强大的思维能力，在很多基准测试中已经超越绝大部分人类。而目前网络上已经在传言，OpenAI的GPT-5有望在今年第四度发布，有OpenAI内部员工认为GPT-5能够达到AGI的水准——具有一般的人类智慧，可以执行人类能够执行的任何智力任务的强人工智能。在GPT-5发布之前，可能会先发布GPT-4.5作为过渡版本，类似于在GPT-4发布前，先发布了ChatGPT-3.5。文心一言与通义千问之间相比的差距，应该也很小，所以今后一段时间内，无论百度还是阿里，还是不要说谁比谁好或者各有千秋之类的话。尽管文心一言和通义千问在诸如写作、聊天等其他某些方面表现合格或者良好，但在人工智能领域，性能尤为重要，如果大模型无法在关键任务上表现出色，那么它的实用价值就会大打折扣——复杂的问题基本上是答非所问，简单的问题有可能是胡说八道。

阅读：2931 点赞：5

评论列表

真实世界研究 19

2023-04-14 12:30

这几家都是基于GPT2.5开源代码搞的，水平几乎都一模一样

嗯嗯嗯嗯 18

2023-04-14 12:15

我就奇怪了，国外的GPT没出来之前国内也没人搞这玩意儿，国外爆出来之后国内三天两头发布人工智能大数据模型，厉害[得瑟][得瑟][得瑟]

赶小鹿 回复 04-14 15:33
别人如果不开源根本抄不了那么快

用户名3312 回复 04-14 12:59
有开源的项目，直接复制加一点改动就能宣传为自研了

恶魔在人间 6

2023-04-15 02:04

国内有墙，数据都非常不完整搞个屁的模型

赶小鹿 4

2023-04-14 15:32

gpt自问自答吗？

风在动 4

2023-04-14 07:13

等华为

忧郁的爱 回复 04-14 15:37
没芯片，复制粘贴都没用

半卷残书 回复 04-14 10:06
华为:麻蛋，又要骂我又要我把所有事情都干了，驴子也不是这么用的[笑着哭]

用户14xxx68 4

2023-04-14 10:05

那为什么中国几家公司不能发挥各自优势一起搞呢？人家那个肯定也是资本运作集结人才一起搞出来的！中国为什么都是各自为战？好像都要防一脚一样

用户12xxx61 回复 04-14 14:58
人家一家加油站赚钱了旁边开咖啡店，开餐馆。中国我在开一家加油站，然后降价。

用户15xxx42 4

2023-04-14 12:33

典型的不懂瞎BB，训练量上不去导致的模型微调不足，国外封锁算力资源这些都看不到吗？但凡从头开始做而不是用别人API的都值得尊敬

忧郁的爱 4

2023-04-14 15:55

我国的国情是，我要比你更好，你过得比我惨就好。要合起来做事就难了，都是竞争对手，欧美国家是，你好我好大家都好就行，怎么高兴就怎么玩，所以他们总是能合起来做大事突破科技瓶颈，发现新科学

复读机 回复 04-14 16:55
这也能舔？

雪饮寒 4

2023-04-14 16:43

别人训练投入大

用户11xxx26 4

2023-04-14 21:38

的啦，我们已经很不容易啦，从建国80年到现在，人家多少年

用户16xxx33 回复 04-15 06:53
我们不是五千年？

浪漫瞬间 回复 用户16xxx33 04-15 08:12
有道理。

某某 3

2023-04-15 04:05

拿的人家GTP-3版本改的，这话是AI自己说的[笑着哭][笑着哭]笑死我了。现在3.5还开源，赶紧拿过来改吧，不然还怎么竞争，人家也是拿的谷歌模型改的，所以我们现在还有时间

用户10xxx25 1

2023-04-14 16:14

都是一些拉圾，起个名字都文纠纠的。[笑着哭][笑着哭][笑着哭]

鸡汤饼稳了 1

2023-04-14 08:25

加油搞

无法显示 1

2023-04-14 16:18

吴恩达，陆奇在百度呆不下去，就注定这个结果。

时代浪潮 1

2023-04-15 07:11

我们的是把戏，人家的是坚船利炮，没变过

这么近，那么远。 1

2023-04-15 08:08

百度还说只落后几个月[呲牙笑]

荒野大表哥 1

2023-04-15 07:39

国内所谓人工智能也只会简单对话而已

建筑外装线条_张

2023-04-14 12:29

乱写一起，

故乡的原风景

2023-04-14 10:54

MOSS发飙了

小毅

2023-04-15 08:13

这就是水军们天天吹的阿里达摩院了[笑着哭][笑着哭][笑着哭][笑着哭][笑着哭]

猪八戒

2023-05-05 13:57

为什么不用文心一言或者通义千问出题，国外的软件答题，来对比一下看看