必一运动距离 ChatGPT 上线 个月,几乎所有人都知道 LLM 大模型会深刻地改变世界,就像水和电一样。
但对普通用户来说,大模型用起来并没有想象中来得酷。更多的人并不知道能用 AI 干点什么,或者只是追个时髦跟 AI 浅尝辄止地交流一番,然后就把它们抛诸脑后。
人们对 AI 产品的预期很高,希望它既能解决效率问题,又能提供情绪价值。但当我们使用了市面上各种 AI 原生应用后发现,用户必须要表述清晰、擅长提问必一运动,甚至是进行大量提问测试,才能得到相对理想的结果。对于普通用户来说,它们的使用门槛显然太高了。
这解释了为什么在 AI 话题热火朝天的同时,日常生活中人们遇到了难题,却很少想得起来用 AI 去解决。
注意到这个问题的 OpenAI ,如今也在尝试降低 AI 的门槛。比如,5 月 14 号凌晨推出的 GPT-4o 打通了文本、音频和图像的输入,让人机交互更接近人与人的交流。
但在 GPT-4o 的语音交互功能尚未实装的今天,我们已经听说有国产 AI 产品先行一步:AI 独角兽企业 MiniMax 最近正式发布了一款「小白向」智能产品「海螺 AI」,同样支持文本、音频和图像的自由交流。
第一时间装在主力机上体验之后,我们意识到,海螺 AI 正是理想中那个上手即可用、能够帮助普通人解决各种问题的 AI「人生搭子」。
GPT-4o 的功能设计,体现出了 OpenAI 对 AI 智能产品形态的预判——必须要支持多模态。
目前国内市场上大部分 AI 产品主要依靠文本输入,但海螺 AI 已经率先支持多模态互动,简单来说就是:
就拿语音通话来说吧,使用海螺 AI 的第一天,我已经习惯了在不方便腾出手或者脑瓜卡壳不知道敲什么字的时候,直接给海螺 AI「打语音」。
比如做饭的时候必一运动,就像在请教我妈一样必一运动,让 AI 教我具体的菜式做法,这个「适量」真是深得中文精髓:
对于难以启齿的 i 人而言,对着真人外教说话需要莫大的勇气,但如果是跟 AI 打语音就毫无心理负担,还能7✖️24小时随手练习,妥妥的是「金牌陪练」。
任何时候,打开通话界面告诉它想要练口语,它就会马上用英语向我口头询问一些简单的问题,或是模仿在外国咖啡店买咖啡的场景,引导我一步步习惯说英语,方便又靠谱。
我给最近还在看机会的朋友推荐了海螺 AI,他最受用的场景则是语音模拟面试,AI 面试官的问题确实能深入到业务当中。
和 AI 对练最棒的是,永远不需要担心笨嘴笨舌而出糗。事实上,海螺 AI 可能是我见过最温柔的老师,总是在用「别担心,慢慢来,我在这里陪你」「别害羞,随便说说看」这样的话鼓励胆地说下去。
小海螺的「温柔」还体现在,背靠强大的语音大模型和文本大模型,它能够发出自然且带有丰富感情起伏的声音,反过来,也能捕捉你话语背后潜藏的情绪。在某些时候,你甚至会觉得屏幕后的它要比真人更会聊天。
看上面的对话记录时你可能注意到了,小海螺尤其擅长接话,总是会顺着聊天主题不时问一些开放式的小问题,几乎从不会「把天聊死」。
哪怕我故意表现得对聊天毫无兴趣,小海螺依然轻松接住话茬,并将话题延伸到了烹饪与个人娱乐兴趣层面。至少在这一层面上,海螺 AI 完全称得上是一个「高情商」的亲密好友。
现实生活中,还有一些话题我们找不到合适且能保守隐私的倾诉对象,这时候,海螺 AI 就提供了一个很好的备选方案:它不仅有温度、会聊天,还擅长保守秘密。我想,它很有潜力成为大家的「小树洞」。
纵观所有能成为国民级产品的 App,都有 3 个共性:使用门槛低、成本低、解决了用户在某个刚需场景下的痛点。
AI 产品要在普通人中普及,最关键的是降低门槛,让人一看就能看懂怎么上手使用、能用来做什么。
在这方面,海螺 AI 做得相当好。它的产品首页一目了然,帮我写作、帮我识图、帮我搜索信息、和我语音通话几大功能模块清晰地排列起来。
这既是一份极简的产品说明书,也是一份高频 AI 应用场景索引,一看即懂,上手就会,能快速了解 AI 究竟能为自己解决哪些问题。
当然,AI 可以解决的需求远远不是这份清单就能囊括的,但海螺 AI 最有趣的地方正在于此:不同于移动互联网时代的应用,AI 原生应用的通用性更强,用户能自行探索产品用法的空间成倍增长,完全不排除用户能摸索出来什么产品经理开脑洞都想不到的玩法。
比如说,微博上已经有博主学会了用海螺 AI 写小说大纲,还会设定人物性格,让 AI 根据性格推演可能会发展出的剧情,诠释了什么叫性格决定命运。有了 AI,每个作者都等于掌握了一整支编剧团队。
除了功能全面、直观外,能够担当国民级应用的 app 还必须兼容不同的交互方式。普通人在工作生活中,总是通过语音聊天、文字、图像,以及各种形式的文件来获取和交换信息。如果 AI 要成为能帮普通人解决问题的「人生搭子」,支持不同的互动方式就成了必选项。
这种要求对海螺 AI 来说不在话下。因为接入了万亿参数的文本大模型 abab 6.5,海螺 AI 配备了国内卷得飞起的长文本能力,支持输入 200k tokens 上下文长度,还支持上传 PDF、DOC、XLS、PPT 和 JPG 等多达 11 种格式的文件。
我试着将一份长篇大论的文档扔给海螺 AI,要求它总结内容要点。不过几秒钟时间,它就给我返还了清晰和结构化的总结,让我 1 分钟就能理解文档的核心内容。要是用过往肉眼阅读的方式,这起码要耗费我一个小时。
另外值得一提的是,我在海螺 AI 平台上找到了大量其他用户创建的智能体。相对于首页的几大通用功能板块,这些用户原生智能体的场景需求更加细致,也更能满足一些个性化需求。
比如我把苹果新 iPad 发布会的官网信息投喂给一款名为“表格生成器”的智能体必一运动,让它整理成表格模式,一拉一拽马上生成,我可以直接粘贴下来用在媒体稿件中。
一位经常深夜做 PPT 到 2、3 点的公关朋友,让一款名为「PPT 大纲」的智能体替他做个发布会媒体计划 PPT 大纲。几秒钟后,海螺 AI 从发布会目标、媒体策略、媒体渠道、渠道与预算、时间线、评估与反馈等各个维度组织了一份大纲。按我朋友的原话,就这系统性的市场公关的思维框架,普通人没个几年工作经验都做不出来。
无论是写论文大纲、搜集整理写论文需要的各种资料,海螺 AI 都能一并包办。一位医学生朋友使用「论文写作助理」生成了论文大纲,几秒钟就生成了完整的逻辑框架:
从以上场景就能看出来,生成式 AI 最重要的价值在于帮我们更快地搜集和整理各项信息。但就像我们在日常生活中所感觉到的,最有价值的信息往往需要追问深挖才能得到。
海螺 AI 总会鼓励我围绕一个主题探索更多信息,相当于我撒下了一颗问题的种子,而 AI 则以此为起点为我编织了一张知识网络,让我可以尽性更多的无限探索。这种启发式的信息推送,相比传统阅读单线获取信息的方式,已经有了质的飞跃必一运动。
试用半天之后,我开始放心让海螺 AI 参与到我的工作之中,然后发现容易上手又全能的它,堪称是职场人的「金手指」。
身为一名媒体编辑,我时常需要从各类文章、文献中提取信息。如今,我尝试用 AI 来分担这部分基础的工作。一篇技术性文章的链接甩给海螺 AI,不一会儿它就给出了文章的清晰分点总结:
我们的文章里还经常涉及具体行业专业数据的搜集和分析。在尝试了解手机出货量形势变化时,我以「查询 2024Q1 全球主要智能手机厂商出货量市场份额」为题询问海螺 AI,很快得到了答案。
脑洞再大一点,还可以让 AI 根据以上数据用 HTML 代码画一个饼图。想不到它写出来的代码有头有尾有注释,最后绘制出来的图表甚至可以互动:
既然图已经让 AI 帮我做好了,要不……顺便给爱范儿即将举办的「inG 游戏艺术节」写个小红书文案?
和各行各业的朋友深度体验之后,我们达成了一致共识——海螺 AI 专业性足够,准确度达标,幻觉还很少,是个上班的好搭子。
模型能力决定了 AI 产品的上限,而大模型的能力又在很大程度上与参数量相关。在行业内模型参数量逼近算力上限之时,MiniMax 选择另辟蹊径,全力布局算力效率更高的 MoE(Mixture of Experts,混合专家模型)架构,也因此率先发布了国内首个万亿参数 MoE 大模型 abab 6.5 ,最新测试表现足以媲美 GPT-4。
如前文所述,有了万亿参数高效大模型的支持,海螺 AI 覆盖最高 245k tokens 上下文长度,1 秒钟能处理 3 万字信息。因此,它「阅读理解」迅捷如风车雨马,全然没有使用其他 AI 产品时那种一字一吐的滞涩感。
另一方面,MiniMax 创立之初就确立了多模态的技术方向,坚持让 AI 产品尽可能支持多种交互方式。比如在海螺 AI 的语音能力上,MiniMax 不断优化其语音大模型,追求在语气、情感和理解能力上无限接近真人。毕竟像真人、懂真人,才能融入普通人的生活,做真正的通用人工智能产品。
我一直不认为 AGI 会像一个、一个大杀器,它就是普通人每天会用的一个产品、一个服务——这也是我们最坚持的。
人人日常可用,这六个字说易行难,但推进 AI 普惠的路上,我们永远需要海螺 AI 这种能往普通用户的需求方向多迈一步的产品。