必一运动实测智能助手「黑马」海螺 AI：人人上手即用的 AI 产品长这样子

新闻资讯 | 2024-05-16 19:00

　　必一运动距离 ChatGPT 上线个月，几乎所有人都知道 LLM 大模型会深刻地改变世界，就像水和电一样。

　　但对普通用户来说，大模型用起来并没有想象中来得酷。更多的人并不知道能用 AI 干点什么，或者只是追个时髦跟 AI 浅尝辄止地交流一番，然后就把它们抛诸脑后。

　　人们对 AI 产品的预期很高，希望它既能解决效率问题，又能提供情绪价值。但当我们使用了市面上各种 AI 原生应用后发现，用户必须要表述清晰、擅长提问必一运动，甚至是进行大量提问测试，才能得到相对理想的结果。对于普通用户来说，它们的使用门槛显然太高了。

　　这解释了为什么在 AI 话题热火朝天的同时，日常生活中人们遇到了难题，却很少想得起来用 AI 去解决。

　　注意到这个问题的 OpenAI ，如今也在尝试降低 AI 的门槛。比如，5 月 14 号凌晨推出的 GPT-4o 打通了文本、音频和图像的输入，让人机交互更接近人与人的交流。

　　但在 GPT-4o 的语音交互功能尚未实装的今天，我们已经听说有国产 AI 产品先行一步：AI 独角兽企业 MiniMax 最近正式发布了一款「小白向」智能产品「海螺 AI」，同样支持文本、音频和图像的自由交流。

　　第一时间装在主力机上体验之后，我们意识到，海螺 AI 正是理想中那个上手即可用、能够帮助普通人解决各种问题的 AI「人生搭子」。

　　GPT-4o 的功能设计，体现出了 OpenAI 对 AI 智能产品形态的预判——必须要支持多模态。

　　目前国内市场上大部分 AI 产品主要依靠文本输入，但海螺 AI 已经率先支持多模态互动，简单来说就是：

　　就拿语音通话来说吧，使用海螺 AI 的第一天，我已经习惯了在不方便腾出手或者脑瓜卡壳不知道敲什么字的时候，直接给海螺 AI「打语音」。

　　比如做饭的时候必一运动，就像在请教我妈一样必一运动，让 AI 教我具体的菜式做法，这个「适量」真是深得中文精髓：

　　对于难以启齿的 i 人而言，对着真人外教说话需要莫大的勇气，但如果是跟 AI 打语音就毫无心理负担，还能7✖️24小时随手练习，妥妥的是「金牌陪练」。

　　任何时候，打开通话界面告诉它想要练口语，它就会马上用英语向我口头询问一些简单的问题，或是模仿在外国咖啡店买咖啡的场景，引导我一步步习惯说英语，方便又靠谱。

　　我给最近还在看机会的朋友推荐了海螺 AI，他最受用的场景则是语音模拟面试，AI 面试官的问题确实能深入到业务当中。

　　和 AI 对练最棒的是，永远不需要担心笨嘴笨舌而出糗。事实上，海螺 AI 可能是我见过最温柔的老师，总是在用「别担心，慢慢来，我在这里陪你」「别害羞，随便说说看」这样的话鼓励胆地说下去。

　　小海螺的「温柔」还体现在，背靠强大的语音大模型和文本大模型，它能够发出自然且带有丰富感情起伏的声音，反过来，也能捕捉你话语背后潜藏的情绪。在某些时候，你甚至会觉得屏幕后的它要比真人更会聊天。

　　看上面的对话记录时你可能注意到了，小海螺尤其擅长接话，总是会顺着聊天主题不时问一些开放式的小问题，几乎从不会「把天聊死」。

　　哪怕我故意表现得对聊天毫无兴趣，小海螺依然轻松接住话茬，并将话题延伸到了烹饪与个人娱乐兴趣层面。至少在这一层面上，海螺 AI 完全称得上是一个「高情商」的亲密好友。

　　现实生活中，还有一些话题我们找不到合适且能保守隐私的倾诉对象，这时候，海螺 AI 就提供了一个很好的备选方案：它不仅有温度、会聊天，还擅长保守秘密。我想，它很有潜力成为大家的「小树洞」。

　　纵观所有能成为国民级产品的 App，都有 3 个共性：使用门槛低、成本低、解决了用户在某个刚需场景下的痛点。

　　AI 产品要在普通人中普及，最关键的是降低门槛，让人一看就能看懂怎么上手使用、能用来做什么。

　　在这方面，海螺 AI 做得相当好。它的产品首页一目了然，帮我写作、帮我识图、帮我搜索信息、和我语音通话几大功能模块清晰地排列起来。

　　这既是一份极简的产品说明书，也是一份高频 AI 应用场景索引，一看即懂，上手就会，能快速了解 AI 究竟能为自己解决哪些问题。

　　当然，AI 可以解决的需求远远不是这份清单就能囊括的，但海螺 AI 最有趣的地方正在于此：不同于移动互联网时代的应用，AI 原生应用的通用性更强，用户能自行探索产品用法的空间成倍增长，完全不排除用户能摸索出来什么产品经理开脑洞都想不到的玩法。

　　比如说，微博上已经有博主学会了用海螺 AI 写小说大纲，还会设定人物性格，让 AI 根据性格推演可能会发展出的剧情，诠释了什么叫性格决定命运。有了 AI，每个作者都等于掌握了一整支编剧团队。

　　除了功能全面、直观外，能够担当国民级应用的 app 还必须兼容不同的交互方式。普通人在工作生活中，总是通过语音聊天、文字、图像，以及各种形式的文件来获取和交换信息。如果 AI 要成为能帮普通人解决问题的「人生搭子」，支持不同的互动方式就成了必选项。

　　这种要求对海螺 AI 来说不在话下。因为接入了万亿参数的文本大模型 abab 6.5，海螺 AI 配备了国内卷得飞起的长文本能力，支持输入 200k tokens 上下文长度，还支持上传 PDF、DOC、XLS、PPT 和 JPG 等多达 11 种格式的文件。

　　我试着将一份长篇大论的文档扔给海螺 AI，要求它总结内容要点。不过几秒钟时间，它就给我返还了清晰和结构化的总结，让我 1 分钟就能理解文档的核心内容。要是用过往肉眼阅读的方式，这起码要耗费我一个小时。

　　另外值得一提的是，我在海螺 AI 平台上找到了大量其他用户创建的智能体。相对于首页的几大通用功能板块，这些用户原生智能体的场景需求更加细致，也更能满足一些个性化需求。

　　比如我把苹果新 iPad 发布会的官网信息投喂给一款名为“表格生成器”的智能体必一运动，让它整理成表格模式，一拉一拽马上生成，我可以直接粘贴下来用在媒体稿件中。

　　一位经常深夜做 PPT 到 2、3 点的公关朋友，让一款名为「PPT 大纲」的智能体替他做个发布会媒体计划 PPT 大纲。几秒钟后，海螺 AI 从发布会目标、媒体策略、媒体渠道、渠道与预算、时间线、评估与反馈等各个维度组织了一份大纲。按我朋友的原话，就这系统性的市场公关的思维框架，普通人没个几年工作经验都做不出来。

　　无论是写论文大纲、搜集整理写论文需要的各种资料，海螺 AI 都能一并包办。一位医学生朋友使用「论文写作助理」生成了论文大纲，几秒钟就生成了完整的逻辑框架：

　　从以上场景就能看出来，生成式 AI 最重要的价值在于帮我们更快地搜集和整理各项信息。但就像我们在日常生活中所感觉到的，最有价值的信息往往需要追问深挖才能得到。

　　海螺 AI 总会鼓励我围绕一个主题探索更多信息，相当于我撒下了一颗问题的种子，而 AI 则以此为起点为我编织了一张知识网络，让我可以尽性更多的无限探索。这种启发式的信息推送，相比传统阅读单线获取信息的方式，已经有了质的飞跃必一运动。

　　试用半天之后，我开始放心让海螺 AI 参与到我的工作之中，然后发现容易上手又全能的它，堪称是职场人的「金手指」。

　　身为一名媒体编辑，我时常需要从各类文章、文献中提取信息。如今，我尝试用 AI 来分担这部分基础的工作。一篇技术性文章的链接甩给海螺 AI，不一会儿它就给出了文章的清晰分点总结：

　　我们的文章里还经常涉及具体行业专业数据的搜集和分析。在尝试了解手机出货量形势变化时，我以「查询 2024Q1 全球主要智能手机厂商出货量市场份额」为题询问海螺 AI，很快得到了答案。

　　脑洞再大一点，还可以让 AI 根据以上数据用 HTML 代码画一个饼图。想不到它写出来的代码有头有尾有注释，最后绘制出来的图表甚至可以互动：

　　既然图已经让 AI 帮我做好了，要不……顺便给爱范儿即将举办的「inG 游戏艺术节」写个小红书文案？

　　和各行各业的朋友深度体验之后，我们达成了一致共识——海螺 AI 专业性足够，准确度达标，幻觉还很少，是个上班的好搭子。

　　模型能力决定了 AI 产品的上限，而大模型的能力又在很大程度上与参数量相关。在行业内模型参数量逼近算力上限之时，MiniMax 选择另辟蹊径，全力布局算力效率更高的 MoE（Mixture of Experts，混合专家模型）架构，也因此率先发布了国内首个万亿参数 MoE 大模型 abab 6.5 ，最新测试表现足以媲美 GPT-4。

　　如前文所述，有了万亿参数高效大模型的支持，海螺 AI 覆盖最高 245k tokens 上下文长度，1 秒钟能处理 3 万字信息。因此，它「阅读理解」迅捷如风车雨马，全然没有使用其他 AI 产品时那种一字一吐的滞涩感。

　　另一方面，MiniMax 创立之初就确立了多模态的技术方向，坚持让 AI 产品尽可能支持多种交互方式。比如在海螺 AI 的语音能力上，MiniMax 不断优化其语音大模型，追求在语气、情感和理解能力上无限接近真人。毕竟像真人、懂真人，才能融入普通人的生活，做真正的通用人工智能产品。

　　我一直不认为 AGI 会像一个、一个大杀器，它就是普通人每天会用的一个产品、一个服务——这也是我们最坚持的。

　　人人日常可用，这六个字说易行难，但推进 AI 普惠的路上，我们永远需要海螺 AI 这种能往普通用户的需求方向多迈一步的产品。