测试表明:百度的文心一言和阿里巴巴的通义千问都表现十分糟糕! OpenAI的GPT-4随机性出了20道不是很复杂的数学和逻辑类问题,用来测试谷歌的Bard、OpenAI的ChatGPT-3.5、百度的文心一言、阿里巴巴的通义千问。 结果表明:Bard做对了所有题目,并给出了详细的解题过程;ChatGPT表现也不错,10道数学题全部做对,逻辑题只做错了1个;文心一言做对了4道数学题和2道逻辑题;通义千问做对了1道数学题和3道逻辑题。 从测试结果不难看出,文心一言与通义千问在数学和逻辑推理方面的能力都很差,根本无法与谷歌的Bard和OpenAI的ChatGPT-3.5相匹敌,当然更加说不上去与OpenAI的GPT-4相比较了。 微软今年3月份的一篇论文认为,GPT-4可以看做是通用人工智能AGI的早期版本,尤其是GPT-4有了强大的思维能力,在很多基准测试中已经超越绝大部分人类。而目前网络上已经在传言,OpenAI的GPT-5有望在今年第四度发布,有OpenAI内部员工认为GPT-5能够达到AGI的水准——具有一般的人类智慧,可以执行人类能够执行的任何智力任务的强人工智能。在GPT-5发布之前,可能会先发布GPT-4.5作为过渡版本,类似于在GPT-4发布前,先发布了ChatGPT-3.5。 文心一言与通义千问之间相比的差距,应该也很小,所以今后一段时间内,无论百度还是阿里,还是不要说谁比谁好或者各有千秋之类的话。尽管文心一言和通义千问在诸如写作、聊天等其他某些方面表现合格或者良好,但在人工智能领域,性能尤为重要,如果大模型无法在关键任务上表现出色,那么它的实用价值就会大打折扣——复杂的问题基本上是答非所问,简单的问题有可能是胡说八道。

评论列表