文 | 航通社,作者 | 书航
从我家到百度科技园,我单程需要跨越 66 公里,花费 3 个小时。去现场参加发布会绝对不是第一时间领略「文心一言」魅力的最佳方案。
实际上,在现场可以看到的内容,和直播的内容基本一致。在现场能看到的也是录屏演示,没有额外「加餐」。
当我回到家安顿下来再打开电脑,已经有少量真实截图,以及一个简单的评测出来了。实际上,今晚开始确实有一批媒体会首先拿到邀请码,推出相对简单的评测。而未来几天,预计会有更多人拿到邀请码,相信也会有更深度的评测出现。
我观察到一个挺有意思的现象,有一两个微博上的娱乐营销号,在发布会刚结束,就发布了相信是来自「文心一言」的截图。另一些则是滥竽充数,比如我看到有个博主说是「文心一言」的截图,实际上来自另一款产品「写作猫」。
这提醒了一个之前我没有注意到的可能,就是对 AI 聊天画面造假。例如有一张 ChatGPT 的问答,展示了它可以正确识别「文心一言邀请码:KFCV50」这个段子的含义。然而我实际拿去测试了 GPT-3.5、GPT-4 和必应,结果是不论是否联网,图里的回答都不可复现。
从技术上,对网页截图造假非常容易,只要打开浏览器的 F12 开发者工具就可以修改相应段落,不需要 P 图。作为对应,「文心一言」的界面样式在发布会上已经公布,而其真实的界面截图都带有唯一的浮水印。
差评做的评测也许是第一个完整的「文心一言」评测,其中测试了发布会没提到的编程功能,以及以表格方式呈现结果。这说明「文心一言」的相关「涌现」能力其实已经展露,但因为算力差距摆在那里,不能预期它发挥跟 ChatGPT 一样稳定,出现不可控结果是完全有可能的。
在 ChatGPT 以及新必应搜索刚刚引起社会关注时,很多关于它「发疯」或出现滑稽结果的报道,一度让人怀疑它的实际能力。但当大家逐渐用上之后,有些担心自然而然地消失了。我觉得,一个对读者有意义的评测,或许不应该聚焦于如何让生成式 AI 突破禁锢或「发疯」,而是看它可不可以完成一些实际任务,可以真正作为生产力工具使用。
至少目前已经可以证明:这次发布的「文心一言」并不害怕真机评测。在发布会使用预录视频,或许只是想让发布会的流程更顺畅一些。
整场活动大多都是演讲,讲的内容或多或少之前都有线索可循。像我昨天预测的可能会用到百度自家的知识图谱,结果今天发现果然如此,官方说法叫「知识增强」。而所有的发言其实都围绕着一个目的,就是「预期管理」。
鉴于 OpenAI 的技术实力即使在硅谷范围里也是遥遥领先,没有任何理由要求「文心一言」刚发布就赶上乃至超越 ChatGPT。整场发布会的很多地方都希望大家能真实认识到这一点,正如我昨天所说:「跟 ChatGPT 比了不行是意料之中的,如果有地方胜出,那就是意外收获。」
另一个需要「管理」的预期,或许是「文心一言」的响应速度。预录视频可以说明两个问题:
所以,随着发布会的进行,百度股价跌一点是完全在预期之中的,甚至可以说「小跌算涨」。发布会采用录播可能进一步把当天的股价压了点,但「文心一言」其实并不害怕就这样接受实测。所以稍给一点时间,股价就有涨回来的空间。
美股开盘后,百度 ADR 走势如下 ↓
最后,你问我能不能拿到邀请码也做个评测?我哪知道啊。(本文首发钛媒体APP)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
不要完全相信截图
还是期待后面更多的测评吧
网上总有各种各样的评价
发布会采用录播可能进一步把当天的股价压了点,稍给一点时间,股价就有涨回来的
画的这个花看起来不错啊
这次发布的「文心一言」并不害怕真机评测