双警夫妻同日生如果你像老狐一样关注手机发布会的话啊,就会发现除了处理器、影像、屏幕、系统这些,最近有一个功能各大手机品牌会花很大篇幅去介绍。
但是,如果你买手机,前面的那些软硬件是你会考虑的因素,而 AI 大模型,我想 99% 的人都不会考虑,是吧?
不可否认的是,AI 代表的是未来,而手机厂商都在往这方面投入高额的成本,那现在手机的大模型哪家最好用呢?
我们找来了华为、小米、OPPO 、vivo ,以及在看完别家发布会后,自信心爆棚,又决定召开发布会的魅族,他们的最新款旗舰手机。
华为 Mate 60 Pro 芯片没有侧载大模型,而是通过云端大模型来处理用户需求,华为背后有盘古大模型团队。
小米和魅族采用的高通骁龙 8 Gen3 ,支持端侧 100 亿参数大模型。
魅族的大模型 Flyme AI ,宣传是开放式 AI 。简单来说,就是自己不开发,跟别的大模型团队合作。
雷军在去年 8 月的发布会上提过小米跑通了 13 亿规模的端侧大模型,但到小米 14 发布时却没有提。
所以,小米 14 、魅族 21 极有可能跟华为手机一样,没有侧载大模型,或者不值一提。
在 AI 设置中,也能找到一些证据,find X7 支持离线图线消除,vivo 支持本地图片风格化和文档总结。
OPPO 即便断网,还能消除画面物体,vivo 一旦断网,本地大模型不能使用。
从参数来看,OPPO 的云端 1800 亿挺唬人,可是华为有盘古大模型,在大模型技术这一块积累更深,大家觉得谁强?
各家手机厂商对于大模型的运用,都是将大模型融入原来的语音助手中,所以打开方式还是包括语音唤醒、长按电源键唤醒、耳机唤醒。
vivo 除了 “ 蓝心小 V “”,还有“ Jovi 语音”,蓝心小 V 是 Jovi 语音功能的一部分。
小米没有 APP ,点进底部搜索栏右侧的小爱同学图标即可进入大模型功能。如果经常使用搜索功能,这样设计很不错。
但某资深米粉同事就表示,这个搜索栏一定要取消,因为用不上还占屏幕。
最好的设计是魅族,长按底部横条 mback 键就能进入语音助手,该方式呼出还支持识屏,在系统如影随形,让人感觉非常简洁。
魅族还有一个“ Aicy 语音 ”,而在这个 APP 的主页面,却没有语音入口,需要进入下一级菜单才能开启场景化的语言助手功能。
这里的交互逻辑,让人感觉非常疑惑,就像是我们建了一栋房子,一楼没有大门,要从二楼窗户才能进入。
魅族小溪也没有打开,但从对话来看,它似乎理解了我的请求,推荐了相册应用。
那咱们再复杂一些,把相册前面“ 打开 ”这个关键词去掉:我想让你帮我打开一些APP,首先是相册。
到这里,小爱同学和小布都失败了,“ 打开一些 ” 成了干扰因素,小爱同学是 APP 请求暂时无法支持,小布已经开始推荐其他 APP 了。
顺便说一句,在这里,没有大模型的 Siri 也执行成功,小伙伴们可以试一下。
再复杂一点,变成多个 APP :我想让你帮我打开一些 APP ,首先是相册,再关闭,再打开哔哩哔哩。
可能有人会觉得这样考验语音助手的理解能力没用,是我们在吹毛求疵,那如果我们要它设置闹钟...
像我这样起床困难户,起床起码得设置 3 个闹钟吧:请帮我设置明天早上的闹钟,一个七点五十,一个七点五十五,一个八点。
类似的,在哔哩哔哩搜索央视新闻,小艺和小布会失败,小 V 和小爱同学能成功。
总的来说,小艺和小 V 各有胜负,小艺语言理解能力最好,但第三方 APP 操作层面,小 V 表现更佳。
而 “ 小溪 ” 语音助手和大模型好像是分开的,理解了我的指令,但没有操作 APP 的权限。
比如我去年真实遇到的一个概率问题,0.975 的 126 次方,这个数据手机助手都能计算正确,通关。
再以常见的鸡腿同笼问题测试,本来我以为大模型解决这类问题已经驾轻就熟啊,没想到有位选手翻车了...
在这道题中:一只笼子关着鸡和兔子,有 76 只腿,26 个头,鸡和兔子分别有多少只?
大部分大模型都算出鸡是 14 只,兔子 12 只,只有小爱同学是错的,计算结果是鸡 23 只,兔子 7 只。
更离谱的是,有时小爱同学还会列出二元一次方程式,你以为它这次终于要算对了的时候,他的计算结果把兔子和鸡颠倒了。
在工作效率方面,我们作为一个自媒体,最看重的自然是大模型在文稿方面的能力。
然而,小爱和小布都没有总结这种长文的能力,不能上传 Word 文档,粘贴文本有字数限制,它俩退出本项考核。
剩下的小 V 、小溪和小艺里,小 V 有些本末倒置,有一半总结是文章引入,后面讨论的内容被一笔带过。相比之下,小溪和小艺总结得明显更全面。
反过来,我又测试了它们写稿子的水平,给出的指令是写一篇关于英伟达历史发展的稿子,然后尴尬的来了。
在关于黄仁勋早期的一段描述,都写到他曾在 1983 年这段时间在加州大学伯克利分校攻读博士学位。
小 V 也好不到哪去,几乎每一段都是以年份开头,简单描述该年的公司重大事件。小艺和小 V 的结果都是编年体公司发展史。
想比之下,小爱生成的稿子可以用文采斐然来形容,分列了小标题,有重要产品介绍,有如今行业地位描述,最后还有两段升华。
除了这类科普式稿子,我们还让它们写了产品推荐稿子,推荐 2000 元价位段手机。
小艺推荐了 3 款手机,其中数据可谓一塌糊涂,红米 note 11 pro 相机和屏幕乱写,reno 5 处理器和屏幕尺寸错误。
更离谱的是,华为畅享 X20 这款手机,市面上不存在,真正存在的机型是华为畅享 20 和荣耀 X20 。
小布把自家 reno5 K 和 A93s 的处理器型号弄错,小 V 在参数上没有出现错误,而且是最新款,但推荐手机简单列几个参数卖点。
不知道大家发现没有,小艺、小布和小 V 不管写的多还是写的少,都只推荐了三款,换到小爱时,它终于推荐了四款手机。
不过,产品参数上依然有错误,自家 note 12 pro 的相机参数错误,iQOO Z6 的充电功率也错了。
魅族小溪参数错误最少,但也没有避免,在 iQOO Z5 这款手机上,原本的屏 幕尺寸 6.67 寸写成了 6.78 寸。
小布和小溪文本看似还像稿子,但每段推荐文章结构是一样的,先写处理器,在介绍屏幕,接着是影像,最后是电池和充电功率,缺少变化。
我们再加一个条件,把字数扩充到 2000 字:帮我写一篇稿子,选题是 2000 元左右手机推荐,字数在 2000 字左右。
小爱两次推荐都是 4 款手机,除了 iQOO Z6 没变外,其他机型都发生了变化,为了增加字数,每款机型描述从特点变成了优缺点。
小溪在没有增加机型的情况下,大幅增加了引入和总结篇幅,又加入了推荐原则与标准、购买建议和注意事项两章,来达到字数要求,甚至自己把标题从推荐改成了深度推荐。
比如描述一个小女孩在卖火柴,小狗在旁边睡着了,给出的结果小女孩都没有在卖火柴。
以上便是在模型里我们常用的功能体验,由于篇幅的关系,关于翻译、写代码等功能,我们不再介绍。
在语音助手部分,在大模型的加持下,手机对人类的自然语言的理解能力得到明显提升。
这部分华为手机最好,能够实现一次下达多个指令让它完成,虽然在美团、哔哩哔哩这些 APP 上失败了,但瑕不掩瑜。
我理解魅族做成开放式设备与他人合作的模式,但在融入手机系统方面确实不尽如人意。
他们生成的文章要点总结还行,写出来的稿子要么满足不了需要,要么错误很多,或者过于简单,离够用还有一段路要走。
值得一提的是,在完成这个项目的尾声,我们再次测试大模型推荐效果时,发现 vivo 的小 V 有了明显进步。
再次让它推荐 2000 元手机,虽然推荐结果还是 vivo 的三台手机,但是文本相比之前已经有了长足的进步,反而成为 5 台手机中生成效果最好的。
虽然 AI 大模型现在还不是消费者购买手机的一个考虑因素,但就像 vivo 一样,整个 AI 领域的技术进步速度令人惊讶,我相信大模型在未来会有广阔的前景。
|