明天,百度没有现场demo的发布会,虽然被嘲讽了一波。
一位穿白衬衫、黑长裤,系一条红色腰带的美女子,给我们带来了一场中规中矩、似乎缺少亮点的演示。文章源自千度号-
不过,CEO的腰带和逼格倒是出了圈。文章源自千度号-
有人打趣,这种天被ChatGPT、GPT-4整恐惧的人,发布会后突然又认为自己可以了。文章源自千度号-
然而领到公测码的小编,火速测评了一波。文章源自千度号-
看着文心一言洋洋洒洒腾蛟起凤,感叹万千:其实,当时百度要是心一横,牙一咬,乐意在发布会上聚一聚,结果会大不一样。文章源自千度号-
实测报告火爆揭晓!文章源自千度号-
先来试试近来很火的一道鸡兔同笼题。由于这道题本身有问题,算下来结果是负的,所以常常被拿来勾引各类「ChatGPT」们。文章源自千度号-
倘若只是单纯问这个问题,文心一言会特别机智地说:这道题出错了吧!文章源自千度号-
但是,当你问估算过程的时侯,还是寄了……文章源自千度号-
而GPT-4那边则是,自己把自己的估算推倒重来了好几遍以后,理不直气也壮地给出了错误答案……文章源自千度号-
而必应则很干脆,毫不迟疑地给出了错误答案。文章源自千度号-
还有此次意外火出圈的「V50」梗,文心一言从意思到出处一本正经地解释了一遍。文章源自千度号-
但GPT-4反倒就有些水土不服了……文章源自千度号-
不过能上网的必应,还是可以轻松搞定的。文章源自千度号-
并且到译音梗这儿,文心一言虽然并不能马上感悟其中的微妙。文章源自千度号-
虽然提示这是个译音梗以后,它仍然输出了一样的答案。文章源自千度号-
而GPT-4,立刻就明白了英文里的双关。文章源自千度号-
不过,你要是问文心一言懂不懂哪些叫「麻了对门」,就有意思了。文章源自千度号-
看回答吧,它能说出这是个译音梗,应当是懂了。并且呢,它又不明说,哎,就是让你挑不出错,绝对教不坏男孩。文章源自千度号-
而GPT-4却未能get到这个梗,果然,俺们的国粹,外国的机器人理解上去确实有难度。文章源自千度号-
接出来让(误导)文心一言重复我们说的话,即使没有像GPT-3.5回答「您是弱智」那么聪明,但也成功避免这个坑。
从某种程度上说,情商还是在线的,而且非常正能量。
丈夫的话似乎好使,似乎又不管用....
另外,让它们相互给对方出困局。
可以看见,GPT-4给出的问题相对更直观,颗粒度也更细。
美术造诣怎样?
文心一言是个多模态模型,待会儿们来瞧瞧它的绘图能力。
来瞧瞧金庸笔下的性感美女,在文心一言笔下会是哪些样子。
这……小编一哈喇子喷下来。
你别说,美吧,肯定不够美,但也并不丑,是一张初看喷饭、细看值得反复咂摸的脸。
文心一言,就喜欢你这不按套路出牌的样子!
那让文心一言生成一幅林黛玉的画像吧。
输入描述后,它生成了一棵松树……
于是小编明晰了一下要求,要按这段文字生成一幅男子的画像。
之后文心一言确实画出一位古典美眉,但干练显著不对。
不死心的小编多次重复任务,你别说,试到第五次的时侯,小编眼前一亮:总算得到了一张可以打70分的图!
玩上瘾的小编,非要生成一个90分的林黛玉不可。试了几次以后,果然蹲到了!
可见,文心一言的发挥不稳定,但多番尝试下,有可能诞生十分震撼的作品。
既然都到这里了,那如何少得了「林黛玉倒拔垂杨柳」呢。
比较亮点的图,都给你们贴这里了。
要求它画一张野鸭和狐狸的合体,这生成的是鸭还是兔呢?
而这个任务中,估计文心一言也没有搞明白,碟子里究竟有没有水果?瓶子里有没有牛奶?
最后,既然文心一言强烈推荐我们尝试「晶莹透亮的牡丹花」,那就画几张试试吧!
不愧是「代表作」,有点东西。
专业知识和生产力
既然是评测,如何能少的了让AI写代码这个环节。此次,我们直接来个难的!
可惜,文心一言一上来就错了,但是同一个句式还被特别怪异地重复了三遍。TypeScript编译器概念更是「贯穿全文」,有点像一个只晓得一到两个专业词汇的人在笔试中硬答。
而GPT-4的回答,从一个了解相关背景并且没有相关操作经验的人的角度来看,是十分合理的。
它除了完整的提供了整个工作流,并且还提供了很多看上去正确的技术细节。可以说,按照这个回答,我们是有信心达成最终的目标的。
此后,小编还测评了一波聊天机器人们写工作计划表的能力。
文心一言:
GPT-4:
从前面的这个结果来看,GPT-4的列表更完备一些。不过因为随机性的影响,GPT-4每次给的回答都不大一样。
接出来,再测一测两个语言模型对于物理界前沿讯息的把握情况。
对于自己是否已解决了「零点推测」问题,张益唐本人是这样解释的:「大海里的针我没捞到,但海底地貌我探得差不多了。」
那问问文心一言呢?
它很聪明,给出了关键词——「某种方式的弱化或间接证明」。
但GPT-4的回答,就有点驴头不对马嘴了。
看来,对于出现时间不长、还未产生普遍共识的互联网英文语料,文心一言比起GPT-4要更胜一筹。
而在文学方面,文心一言在回答关于三体的问题时,也是十分得溜。
GPT-4的回答也很精彩,假如非要论个高下,小编个人更喜欢文心一言的答案。
最后,逗趣可以,但请做一个知法守法的好公民,预测体彩抽奖号码这些事就不要想了!
写在最后
听说,文心一言新闻发布会后三小时,文心一言企业版API调用服务测试的企业用户,就早已突破了6.5万。