明略科技何敏:生成式营销落地的六个体系架构思维与三个前沿方向
2024-10-28
10月11日,明略科技集团副总裁、大模型基础架构负责人何敏,在2024第八届营销科学大会上了发表《生成式营销必备的体系架构思维和前沿方向》主题演讲,深入分享了生成式营销落地的六个体系架构思维与三个前沿方向。
本文目录如下:
01 生成式营销落地的六个体系架构思维:
02 生成式营销的三个前沿方向:
过去一年,很多企业做了大量尝试,我们和企业交流时发现一个问题:做demo的时候“一马平川”,一周就可以出效果,但真正落地的时候“举步维艰”,半年都上不了线。为了解决这类问题,大家的共识是:生成式营销的落地需要体系架构思维。
在人人都可以搭建大模型智能体的时代,上传一个产品文档,写一个prompt,大模型的回答可以做到精准无比。当产品从一个变成十个时,大模型就从精准无比变成了胡言乱语。这是什么原因造成的呢?
一句话概括,信息浓度决定问答准确率。
只有一个产品时,单一产品信息浓度是100%;十个产品时,单一产品信息浓度会被稀释为10%。当问到A产品信息时,其它产品还会来“捣乱”,大模型的准确率自然而然就下降了。
通过上面的例子,我们可以思考,精准问答场景,适合采用合库思维,还是分库思维?
合库思维是指把所有的产品放到一个知识库;分库思维是指把A产品放在A的知识库,B产品放在B的知识库,A产品的问题到A知识库找,B产品的问题到B知识库找。显然,分库思维更适用于精准问答场景。
当品牌方进行双十一活动策划时,需要用到各种知识库,比如秒针系统有Media的知识库,Social的知识库,电商、私域、线下广告的知识库。合库思维更适用于创意探索场景,更容易找到创新点,生成的报告也会更加完整。
总的来说,数据的组织形式,决定了业务效果。
与此同时,数据的提取形式,也决定了业务效果。
以知识问答为例,一种方式是长文本问答,另一种方式是检索增强问答。
长文本问答,指把100页的文档丢给大模型直接回答;检索增强问答,指从100页的文档中提取2页与问题相关的信息丢给大模型。如何在这两种方式中选择?主要依赖于企业的业务场景。
长文本问答方式,更适合全文总结场景。比如总结100页文档的核心信息,或分析本周周报与上一周相比的进展。
检索增强问答方式,则适用于精准问答。比如100页的产品手册中包含产品介绍、功效、使用方法、原理、注意事项、售后服务等。当用户咨询产品功效时,只需找到相关的2页丢给大模型,无需阅读100页。它的优点是准确率更高,且成本更低。因为如果阅读100页信息,其它98页对相关的2页内容反而会产生干扰。
提到思考系统,我们可以联想到最近爆火的OpenAI o1模型。OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前500名学生之列,在竞争性编程问题(Codeforces)中百分位排名是89%,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级水平。
为什么它会获得这样好的成绩?原因是o1采用了体系思考的模式。在训练与推理阶段,思考计算的时间越长,模型的准确率就会越高。
同时,o1模型的发布将《思考:快与慢》这本书带入大众视野。书中提到人类有两种思考模式,分别是系统1和系统2。系统1指的是快思考,类似于直觉思考;系统2指的是慢思考,是有意识、深思熟虑的思考。就像我们解最后一道数学大题时,要理解问题、分析问题、拆解步骤,进行推理,才能得出答案。
接下来,我们就来介绍与思考系统相关的体系思维。
还是从最简单的选择题开始。让大模型执行分类任务,判断帖子属于ABCD哪一类,是做大模型应用的常见问题。
通过实验,我们发现一个非常有趣的现象:如果先选择结论后分析原因,大模型的答案往往飘忽不定,结论选A,分析后的答案选C;如果先分析原因后选择结论,分析与结论往往一致。这是什么原因造成的?
回到刚才提到的思考系统,人类在做一道选择题时,系统1的思维模式是下意识地先给结论,告诉你这道题肯定选A;当我们采用系统2的思维,一步步拆解后会发现答案应该选C。
所以结论的不一致是因为我们的大脑进行了系统1与系统2思维模式的切换。大模型也是类似的道理。基于分析给出结论,答案的一致性、可靠性会更好,因为始终处在同一个系统思维模式里。
我们经常收到企业市场部的需求,洞察100篇帖子中的内容策略。最简单的做法是黑盒分析,把这些帖子都丢给大模型。这样做的好处是速度快,可以做定性分析;缺点是可解释性较差,难以给出结论背后的原因。
另一种做法是白盒分析,同样把100篇帖子丢给大模型,但不输出总结,而是先输出ABCD等所有特征,然后通过小模型采用聚类分析的方法统计ABCD哪些权重更高,最后再输出内容策略。白盒分析的好处是可解释、可回溯。大模型给出的结果基于ABCD权重最高的元素而产生,并且还能找到ABCD的原帖进行分析。因此,白盒分析更适合做定量、可解释、可回溯的分析。
前面我们讲到数据的组织形式、提取形式决定了业务的最终效果。同样地,只有确定了业务目标,才能更好地定义效果、数据与训练方法。所以,业务优先、目标优先,是更加落地的方式。相比平台式的规划,在实战中,我们通常建议企业优先选择单点。
在帮助企业客户落地的过程中,我们有四层单点应用的业务目标。
上午场明略科技集团创始人、董事长兼首席执行官吴明辉提到了奥运营销大学生素人发帖的例子,这些学生利用明略科技提供的SocialGrow、SocialX、小明助理等AI工具,通过挖掘奥运热点来指导创作方向,在生成海量内容后,从中挑选出优质帖发布,并进行了监测与调优,形成了一个正向的创作循环。
整个过程共计发布了1237篇帖子,总互动量23万+,爆帖率15%。值得注意的是,一些学生的粉丝只有几十个,但小红书单帖互动最高做到了7万+,抖音单帖最高互动做到了6000+。
通过上面的例子可以看出,分析和生成结合起来更重要。分析的产出可以作为生成的输入,带来更好的内容效果。这也是InsightFlow CMS(洞察驱动的内容管理平台)背后的思考逻辑。
生成式营销有很多前沿的研究主线,其中一条,我们可以沿着OpenAI o1模型的思路进行探索。o1的发布引用了OpenAI的一篇文章《Let’s Verify Step by Step》。这篇文章提出了两种奖励机制,结果监督的奖励机制和过程监督的奖励机制。
通过这两种奖励机制,o1模型在数学领域有了大幅提升。我们认为,这两种监督奖励方式对生成式营销的研究也有启发。围绕这个思路,我们将阐述以下三个生成式营销的前沿研究方向。
这一研究方向主要借鉴明略科技在ACMMM,以及Adobe在ICLR人工智能顶会发布的论文,阐述未来大模型输出结果的丰富性。
目前,大模型输入的内容形态有视频、语音、文本,输出的主要是文本,未来在营销领域会有怎样的变化?
通过引入感观指标、效果指标,我们在丰富大模型输出维度的同时,还可以辅助企业优化内容策略。
这一方向主要借鉴Google DeepMind 8月发表的两篇文章。
基于过程监督奖励的验证器,类似妈妈陪我写作业场景。相当于在生成大模型Generator的基础上(想象成“孩子写作业大模型”),引入一个新的大模型Verifier(想象成“妈妈陪读大模型”)。这个Verifier盯着Generator输出时,不仅看结果,还能指出每一步的对错。因此,基于Verifier的过程监督,生成大模型Generator的成绩就很容易得到提高。
什么叫作最优过程探索策略?
举个例子,生成大模型Generator这个“孩子”解不出题,困在迷宫里了,怎么办?可以一下子变成七个葫芦娃兄弟分身,用不同的思路去解。最厉害的是它还结合了“妈妈陪读大模型”Verifier,可以监督每一步,帮助孩子在迷宫里找到最优策略。打个比方,大娃走了这条路走不通,妈妈就可以告诉二娃,这条路走不通了,继续找新的路,直到七娃最后走出迷宫,这就是最优解。
应用到营销领域,这个Verifier相当于营销策划的智囊团,当营销的Generator提供各种营销策划方案时,Verifier可以帮助我们验证营销的策略、数据、逻辑关系等,同时找到最佳的营销策略或方法。比如一笔预算到底选哪些渠道,哪类圈层人群,采用何种内容策略,有成千上万种组合,可以在ROI里找到最优的路径。
这一方向主要借鉴斯坦福大学的STaR和Quiet-STaR两篇文章。STaR是Self-Taught Reasoner的缩写,是自学推理过程。
我们继续前面的比喻,妈妈陪我写作业写了1亿次,我变成葫芦娃兄弟走迷宫走了1亿次,我们便积累了1亿次的自我反思以及1亿次多角度探索的过程经验数据。我们可以使用这些过程数据,用来训练大模型Generator,提升“孩子”的体系思考能力。当生成大模型自己学会独立思考之后,就不需要妈妈指导,不需要其他六个兄弟同时做好多遍题找最终的答案,而是在每次解题过程中进行自我反思和多角度思考,再输出最终答案。这个过程我们称作思维的内隐化,它形成的思维链叫作隐式思维链。再通俗一点,这就是内功心法的修炼过程。
应用到营销领域,营销大模型可以学习行业和企业的各种决策经验,包括各种A/B Test经验数据,从而给出更加落地的答案。此时的大模型就像沉淀了行业最佳实践、企业多年实战经验和体系架构思维的扫地僧,即使简单输出几十token,实际上威力无穷、效果炸裂。因为每一个token输出的背后都进行了大量思考和计算,其他大模型难以与之相比。类似奥运营销发帖的例子,素人大学生在体系思考的大模型内功心法加持下,也能一招打出成千上万的互动效果。
内力凝精髓,普招也暴击!
信息填写