Reader

产品经理可能需要的AI大模型知识·大白话版

| 人人都是产品经理 | Default

本文从非 AI 领域产品经理的视角出发,深入浅出地介绍了 AI 大模型的基本能力、应用场景及开发技巧。文章详细阐述了如何通过结构化输出、工具调用、多模态交互等功能,提升 AI 与产品的契合度,并探讨了模型微调、检索增强生成等优化方法。

从 ChatGPT 问世到 Deepseek 的出现,AI 给人类带来的惊艳已无需多言,AI 大模型的发展速度远超过我们想象。「如何打开脑洞让 AI 帮你做 PPT?」、「如何写 prompt 提示词让 AI 显得更专业?」,现在市面上并不缺乏教你如何更好使用 AI 大模型的内容。

今天我想要和大家聊聊的是:除了这些众所周知的,产品经理还需要知道哪些 AI 大模型的知识?

1 核心问题是…?

作为非 AI 领域的产品经理,可能并不需要深入了解其技术原理和运作方式,但在当前猛烈的技术浪潮下,你总有一天会遇到这样的问题:

  • 如何充分利用 AI 大模型,
  • 融入自己的产品设计,
  • 更好满足用户需求?

在此之前,你可能听说过一些名词,诸如微调、知识库、Token、插件、MCP等,但知其名,不知其意。

此外,现在 AI 大模型也种类繁多,国外的 OpenAI、Google Gemini、Anthropic Claude、Meta Llama、xAI Grok…以及国内的 Deepseek、阿里通义千问、月之暗面 Kimi、字节豆包、腾讯混元…

纵然乱花渐欲迷人眼,但其实大体上核心基本能力相似,分支专业领域各有所长。

作为产品经理,有必要对这些能力有一些基本了解。别等到不得不拥抱AI的时候,你能想到的只有一个输入框。

2 他们能做什么?

接下来我将要重点介绍 AI 的一些基本能力,可以帮助你更好地去定制和设计 AI,让 AI 与你的产品更加契合。

希望了解这些知识后你能够打开思路,避免千篇一律教条化 AI 接入。

2.1 结构化输出,让 AI 学会「填表」

这个很好理解,就是让 AI 按照规定的格式来说话,别「瞎逼逼」。

填表比说话更有效率

我们平时也经常会「填表」,目的就是让我们按照规定的格式来输入信息,这样的数据能够更好地收集和处理。否则张三李四各说一个版本,你也搞不清楚关键的信息是否收集到位了。

让大模型「填表」

对于大模型,你也可以要求 AI 用你规定的格式来回答问题。

{
“产品名称”: “智能音箱”,
“型号”: “X100”,
“价格”: “499”,
“库存”: “200”,
“image”: “图片地址”,
“url”: “链接地址”
}

这样做的好处包括但不限于:

  • 规范回答格式,一定程度避免 Ta 放飞自我;
  • 方便开发工程师对数据进行二次包装或者处理;
  • 切换不同大模型时,能获得相对规范统一的回答。

随便举几个应用例子:

  • 让 AI 从用户差评中自动提取「问题类型-严重程度-情绪评分」;
  • 把自由格式的会议纪要转换成「议题-负责人-时间节点」的表格;
  • 让大模型根据需要,回复用户不同格式的消息:文本、图片、视频、跳转链接等等…

小结

通过结构化输出,你可以进一步压榨 AI 大模型,让 Ta 和你想要设计的功能、想要满足的需求更高效地结合起来,AI 不再只是偶尔嘴上跑火车的对话框了。

2.2 学会用工具,告别「光说不练假把式」

数百万年前,人类开始学会制作和使用工具,工具的使用又反过来推动了人类的进化。

巧妇难为无米之炊

试问,在不借助任何工具的情况下,你能不能空手做好一桌大餐?

很难吧。

如果给你足够的工具,譬如菜刀、铲子、锅碗瓢盆、微波炉、烤箱、榨汁机、一个可以查询食谱的电脑…是不是事情会 easy 很多?

同样的,一个只会对话和回答问题的 AI 都是键盘侠,纸上谈兵罢了。但如果学会了使用工具,AI 实力将得到极大的提升。

举例一个具体的场景,当你想要去成都旅游时,可能会问 AI 大模型一些基础的攻略:

但如果让 Ta 学会调用旅游相关的工具,事情就会变得有意思:

  • 查一查成都最近的天气是否适合旅游;
  • 帮你订好到成都的机票;
  • 查询飞机降落的信息,及时提醒在哪里取行李;
  • 帮你预约好接机的网约车;※ 帮你预订好合适的酒店;
  • 帮你预定好每一天的行程、博物馆的门票、用餐的餐厅等等;
  • 你每到一个地方,都按照你的兴趣为你讲解;

……

简单来讲,你是可以教会 AI 怎么去使用你提供的工具的,基本的形式是:

  • 先告诉大模型 Ta 可以使用哪些工具,这些工具分别是干什么的,怎么用;
  • 当你向 AI 提出一个需求时,Ta 会自己判断是直接回答还是调用合适的工具来帮你完成任务;
  • AI 会按照工具的使用说明书,自动生成调用指令,向工具发出请求;
  • 工具处理完请求后,返回结果,AI 再将结果整理、优化并反馈给你。

目前,工具调用常见的概念有两个:

  1. 单个工具调用(Function Calling)和工具包调用(MCP)
  2. Function Calling

大多主流大模型都提供了 Function Calling 的能力,你可以提供很多个 Function 给大模型使用,每个 Function 实现不同的功能。

这就像工具箱里一个个不同用途的工具:螺丝刀、钳子、锤子、扳手、锯子…每个工具都有不同用途。大模型会根据对话需求,自行决定是否调用工具以及调用什么工具。

需要注意的是,这些工具需要你亲手做好,并写好说明书教大模型如何使用。虽然大差不大,但每个大模型对 Function Calling 规则和标准不尽相同,当你切换不同大模型时,可能需要针对性「私人定制」一下。

MCP

相比 Function Calling,MCP 则更像是一个个打包好的、不同用途的工具箱,譬如刚才提到的螺丝刀、钳子、锤子、扳手、锯子…就可以打包成一个「维修工具包」。

除此之外,我们还可以把创口贴、纱布、棉花、剪刀、碘伏等打包成一个「医疗急救包」。

同样的,把指甲刀、锉刀、修眉刀、挖耳勺等集合到一起,又可以成为一个「日常护理包」。

没错,你可以把 MCP 看做是一个标准化的、解决不同领域问题的「集合工具包」,Ta 把某一领域需要用到的功能都打包在了一起,并且用标准化的协议来连接大模型。这样一来,不同的大模型都能够统一地使用工具包里的每一个工具.

MCP(Model Context Protocol,模型上下文协议)是由 Anthropic 公司推出的开放标准协议,目前这个技术标准还在发展当中,更加复杂的技术概念就不在这里赘述了,感兴趣的朋友可以搜索更多资讯进一步了解。

二者对比

多模态:给 AI 嘴巴、眼睛和耳朵

除了传统的文本对话和工具调用之外,现代 AI 大模型正逐步具备强大的多模态能力。这意味着,AI 不仅能“说”,还能“看”图像、听语音,甚至处理视频内容,从而为产品带来更多维度的交互体验。

具体来说,多模态能力体现在以下方面:

1)视觉识别与生成

能看图,也能画图。AI 可以看懂图片,也可以根据描述自动生成符合风格的图片素材。

2)语音识别与合成

听人话,说人话。AI 能听懂用户说的话,也能够通过语音回应用户。

3)视频内容解析

看视频,做视频。AI 能看懂视频的内容,并且有自己的理解。与此同时,AI 也在逐步具备生成视频的能力,仍在发展中。

通过多模态交互,你可以让 AI 大模型变得更加“全能”,不仅限于文字对话,而是通过视觉、听觉等多个感官渠道与用户互动,为产品创新提供更多可能。

AI Agent

最近到处都在讲的 AI Agent,就是把这些能力整合在一起,通过感知、决策和使用工具,成为一个能自主思考并完成任务的智能助手。

小结

你可以把你产品的各种能力按需包装成「工具」或者「工具包」,AI 不止会「说」,还能真正去「做」。此外,可按需接入多模态能力,赋予 AI「看」、「听」、「说」的能力。这样一来,AI 同你产品的结合度会更加紧密,也可以更好地满足用户的需求。

2.3 PUA 大模型,教 Ta 做事

大模型什么都懂,但 Ta 不一定懂你。那怎么让大模型知你懂你、按照你想要的方式和答案去回答用户呢?

请掌握好两大「PUA」大法:模型微调(Fine-tuning) 和 检索增强生成(RAG)。

说人话就是:喂饭 和 给辞典。

给 AI 喂饭:模型微调(Fine-tuning)

俗话说,熟读唐诗三百首,不会作诗也会吟。如果你对 AI 针对某些问题的回答不够满意,就可以用填鸭式教学的方式不停地给 Ta 举例子,让 Ta 逐步变成你想要的模样。

通过「喂饭」,可以把一个通用大模型转化为「医疗问答专家」,或者一个「中二少年」。需要注意的是,虽然这里叫「微调」,但 AI 的「饭量」很大,你需要提供足够多的数据,Ta 才能够有更加稳定可靠、符合期望的表现。

给 AI 辞典:检索增强生成(RAG)

在不借助互联网的情况下,如果你要搞懂「樽俎折冲」这个成语的含义,你会怎么办?

查辞典是一个比较高效的办法。

同样的,如果想要 AI 专精一些冷门或专业性知识,譬如客服回复话术或产品使用说明。

那就可以丢给 Ta 一个知识库文档,AI 会自己去检索文档内容,结合文档的知识来回答用户问题。

值得一提的是,这里 AI 使用的不是我们传统的「关键词搜索」,而是「语义检索」。

平时我们搜索一个文档,「番茄」就是「番茄」,「西红柿」就是「西红柿」,你搜索「番茄」是找不到「西红柿」的。

而语义检索可以做到搜索「番茄」也找到「西红柿」。这让 AI 对知识库的检索能力变得比人更强大。

二者对比

2.4 和 AI 对话,一场人格分裂的角色扮演

首先,众所周知,AI能对话。

除了在Ta们提供的聊天框内与他们对话,你还可以调用 API(开放接口)能力,与 Ta 对话。# 每一次消息都要带上之前说过的话,不然AI不知道之前说了啥。

看不懂没关系,也不需要太懂,我举个例子来逐一解释。

想象甲乙丙三方公司通过邮件进行沟通:

① role(角色)

角色即身份,有点类似邮箱@后的域名,你来自哪个公司一眼就看出来了。对于 AI 来说,主要有 3 种身份:

  1. system(系统)类似于第三方监管机构,邮箱地址:[email protected]。主要负责制定一些基本规则,教乙方做事,让乙方在甲方面前老实点,别放飞自我整幺蛾子。
  2. user(用户)至高无上、提出需求的甲方,邮箱地址:[email protected]。甲方说啥就是啥,有啥问题都随意提。甲方可以是一个人,也可以是多个人。
  3. assistant(助手)这里就是指 AI 大模型,兢兢业业满足需求的乙方,邮箱地址:[email protected]。甲方说啥就是啥,乙方必须有求必应。同样的,乙方也可以是一个「人」或多个「人」。

② name(名字)

有点类似邮箱@前面的账号名,你是甲方的谁谁谁或者乙方的谁谁谁就分得很清楚了:

  • 唐诗专家指导@system.com
  • 刘总@user.com、王工@user.com
  • AI 李白@assistant.com
  • AI 杜甫@assistant.com
  • AI 李商隐@assistant.com

一般来说,我们不会默认使用 name,因为 role 的三种角色已经足够了。但如果你构思的产品需要有多用户和多角色的时候(譬如人机混战剧本杀),那么 name 就能派上用场。

③ content(内容)

顾名思义,写邮件的时候肯定会包含邮件正文,甲乙丙三方都通过邮件正文传递信息。

④ forgetful(健忘)

每封邮件必须包含之前所有的对话历史。

很不幸,这个邮箱对话系统非常简陋,每次只能看当前收到的邮件内容,不存档之前说过什么,甲乙丙也都是「金鱼脑」,什么都不记得。

因此,为了让大家明白来龙和去脉,每一次发邮件的时候,都需要带上之前所有的对话。只有这样,AI 才能明白之前讨论过哪些问题,进而做出连贯、准确的回答。

但这样也带来两个硬伤:※ AI 对话的记忆有限,迟早会失忆;※ 对话轮次越多,消耗的 token(RMB😜) 也呈指数级增长。

小结

了解以上的信息之后,结合不同的 system、user、assistant,相信你已经有了很多新的想法和创意。

2.5 更多小知识

作为甲方的你,除了可以和大模型对话,还可以提一些小要求。

我就简单说几个大家可能常用的:

stream:流式输出

可以控制 AI 的回答是全部就绪了一次性发给你,还是一个字一个字蹦给你。是的,我们平时看大模型回答一直在打字,就是用的流式传输。由于大模型输出完整答案的时间目前还比较长,流式输出可以有效减少用户的等待焦虑。

frequency_penalty:重复率

-2 到 2 的一个数字,减少重复内容,避免复读机。如果 frequency_penalty>0,AI 回答问题一旦出现已有文本中就会被扣工资。

temperature:温度

虽然叫温度,但其实代表着 AI 的随机性、创造性。温度低,AI 就比较稳扎稳打,对同样问题尽可能保持一致回答,反之思维则更加发散、回答的随机性更多。还有一个参数叫 top_p,作用类似就不赘述了,免得把你绕晕了。

小结

如果你还想知道更多关于大模型的参数,你可以去查看各个大模型官网的 API 文档,里面有更加详细的说明。

3 AI 的幻觉

AI 幻觉,简单来说就是 AI「一本正经地胡说八道」,Ta 有时候会给出看似逻辑通顺、有鼻子有眼,但实际上不符合事实、和你问题八竿子打不着的回答。

这是因为:

  • 瞎读书,读瞎书:训练数据中包含了太多错误的、质量不高的信息,走火入魔、误入歧途了;
  • 想太多,太多想:AI 会强行关联高频出现的词汇(比如:看到「加拿大」就想「多伦多」,但你的问题其实是加拿大首都在哪里);
  • 好面子,怕冷场:现在的大模型更多被设计成“宁可死鸭子嘴硬瞎编也不承认自己不知道”,遇到拿不准的就会一本正经的胡说八道。

所以,除非你是专门做 AI 类的产品,否则最好让 AI 成为你产品功能的「拓展」,而不是「替代」。

毕竟,AI 不是随时都靠谱。

4  他们分别擅长什么?

主流大模型就像武侠世界的各路高手,有的内力深厚适合硬刚代码,有的轻功了得擅长处理万字长文,有的暗器精妙专攻多模态花活。结合你的产品需求选对兵器,才能让 AI 真正成为你的「六脉神剑」。

以下是国内外部分主流大模型的对比(表格较大,PC查看效果更佳):

以上的总结不一定准确,大家还是以各大模型官网和权威测评为准。

5 写在最后

大模型不是万能药,它更像是产品创新的「催化剂」。理解能力边界,善用工具组合,才能让 AI 真正成为用户的「超级助手」。

一个比较个人主观的想法:

产品经理的核心任务是用 AI 放大用户价值,而非追逐技术炫技!

很庆幸见证这个 AI 飞速发展的时代,也正因为如此,AI 相关的技术日新月异。这篇文章也仅仅介绍了一些稍有拓展的基本概念。如果你对 AI 感兴趣,不妨在闲暇时多关注一些。

历史的车轮仍在向前,

焦虑不如期待。

本文由人人都是产品经理作者【格式刷JJW】,微信公众号:【格式刷】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。