无尘阁日记

无尘阁日记

从流量到转化:实用性与互动体验如何驱动用户行动
2024-10-13

在分析这两篇文章的转化率时,可以归结为以下几个关键原因:

1. 文章内容的实用性与需求匹配

第一篇文章内容相对科普,虽然阐述了AI的概念和历史背景,但更多的是在解释理论和技术演变,这种内容对读者的实用性不高,尤其是对那些希望快速获得可操作性信息的用户而言,科普文章的转化率往往较低。

第二篇文章则更加实用和直接,讲述了一个大家容易理解且能立刻引发兴趣的话题——声音克隆,并且强调了具体操作步骤的可行性。读者在阅读时能够清晰感受到,这篇文章不仅提供了信息,还告诉他们如何免费实现这个过程,这种强烈的实操感和效用性直接提升了文章的吸引力。

分析:

  • 实用性驱动转化:第二篇文章能让读者产生立即尝试的欲望,尤其是在涉及个人化、声音克隆等有趣和贴近生活的技术时,读者更容易被激发行动。而第一篇的科普内容虽然知识性强,但对于实际操作的吸引力较弱。

2. 情感和体验的嵌入

第二篇文章采用了互动性的体验模式——通过播放声音让读者猜哪个是AI生成的声音,这种方式不仅增加了文章的趣味性,还让读者产生了“参与感”。这种互动机制让读者的注意力集中在内容上,并且感受到和作者的情感联结。这种嵌入情感的方式通常会提高用户的参与感和转化率。

分析:

  • 互动性与参与感:通过让读者猜测和参与,文章不仅传递了知识,还让读者在参与过程中体验到声音克隆的效果。这种情感和互动嵌入增强了读者的好奇心和参与动机,进一步促使他们加入社群。

3. 差异化的话术设计与用户预期管理

你提到第二篇文章在话术上做了优化,增加了用户预期,并通过提到未来可能涨价的方式刺激读者加入社群。这种话术设计抓住了用户的FOMO心理(害怕错过),有效提升了转化率。

分析:

  • 紧迫感和预期管理:提到未来涨价的策略,让用户感到“现在加入更划算”,这是激励用户立即行动的有效方式。第一篇文章中缺乏这种明确的预期管理和紧迫感,因此无法有效促使读者立即加入社群。

4. 文章形式的差异化与商业化属性

第一篇文章较为全面且深入地探讨了AI的多个方面,虽然信息量大,但内容的深度和广度可能让读者感到信息过载,尤其是对于那些非技术类的读者而言,转化动机较弱。

第二篇文章则更聚焦于一个具体的、有吸引力的话题,而且围绕“克隆声音”这一点展开,简单、直接,且极具商业化潜力。用户可以看到通过文章提供的技术和工具,自己可以实现个性化的功能,增强了付费加入社群的可能性。

分析:

  • 聚焦与简化:第二篇文章主题集中,容易理解且容易操作。聚焦于一个具体操作,能够引发读者的立即需求。而第一篇的广泛讨论虽然有助于建立知识背景,但未能形成强烈的“立即需求感”。

5. 阅读量与转化率的反差

尽管第一篇文章的阅读量远高于第二篇,但转化率反而低得多。这说明流量和转化率并不总是正相关,文章的转化率更多依赖于内容的吸引力和实用性。第二篇文章通过更精准的用户需求对接,获得了更高的转化率,哪怕阅读量相对较低。

分析:

  • 精准匹配用户需求:第二篇文章更精准地触及到用户的需求,尤其是那些对声音克隆感兴趣的用户,这类内容带来的转化率更高,而第一篇虽然受众广泛,但不一定触及到有付费需求的用户群体。

总结

第二篇文章在内容实用性、情感互动、话术设计和紧迫感等方面都有较为显著的优化,因此带来了更高的转化率。相比之下,第一篇科普性较强的文章虽然阅读量大,但缺乏让用户产生立即行动的动机。因此,在未来的内容设计中,建议你继续保持这种实用性内容和互动体验结合的策略,并通过预期管理和紧迫感刺激用户转化,最大化内容的商业价值。



prompt:

第一篇文章《大白话讲讲现在的 AI 和一堆乱七八糟的东西都是啥》

人工智能发展太快了,几天就蹦出个新名词,今天用大白话讲讲 AI 的来龙去脉,和现在每天碰到的各种听说过很多遍但依然不知道是啥的东西。放心不会说很深奥的理论和公式。

---

我们用一个例子来开头,想想看如何识别出一张图片是否是车呢?其中一种办法是告诉我一个规则,比如有轮子、有方向盘、能向前跑的就是车。那让机器去做这件事也可以用同样的办法,只不过需要设定更多严格和明确的规则,让机器按照这个规则来准确识别出这是否是一辆车。这种人工智能的流派就是最开始的符号主义。

这不是啥深奥的东西,你高中证明那些数学题用的「因为所以存在任意包含属于」这些个符号来推导结论,还有你可能了解到的公理体系命题逻辑这些,用的就是符号主义的思想。只不过这个思想认为世界所有的东西都可以进行符号化,然后设定推导规则,这样用机器就能解释和运行一切原理了。


但现在这条路不太好走,那么严谨和有章可循的数学都没办法完美地形式化符号化,更别说人类本身还有纷繁复杂的世界了。就拿一个最简单的问题,明天股票是会涨还是会跌?你想想看这背后如果能严格形式化证明那有多难。

---

所以另一个流派慢慢起来了,就是连接主义。刚刚说如何识别一张图片是车,好了你不要告诉我什么规则了我也记不住,你就让我看 100 张车的图片,然后我自然就学会了什么是车,虽然我也不知道我是咋学会的,也不知道我是咋识别的。

这就是神经网络的雏形,和我们人学习一个东西就很像了。想想看一个小孩儿一开始是怎么学会认识物品的?绝对不是通过看有没有轮子有没有腿的,只是因为看多了,自然就学会了。我们自己可能都没意识到,人类模式识别的能力相当强,几乎扫一眼不需要经过任何思考过程,就知道眼前的物品都是什么,摆放关系是怎么样的,之后可能会发生什么事,但这对机器来说是相当相当相当困难的。

神经网络就是这么神奇,根本原理也很简单,输入是一堆参数,输出是一堆参数,中间一层一层又是一堆参数。然后通过一大堆数据不断调整参数的权重,数据多了慢慢就调出了一组神奇的参数权重,和人学习的过程很像,就好像机器学习到了这个知识一样。


上面是手写数字识别的神经网络模型,虽然最终调出来的参数能很有规律地识别数字,好像是有逻辑一样,但单独看里面的各个神经元就是一组毫无意义的小东西,微观层面的无规律在宏观层面却展示出惊人的能力。

---

从一开始的基于规则的机器学习(符号主义)到后来的基于神经网络(连接主义)的机器学习,后者慢慢变成了主流。

随着我们的硬件设备越来越牛逼,算力越来越强,基于神经网络的深度学习技术也越来越强(CNN、RNN、Transformer)。这里不是讲技术的就一笔带过了,总之就是硬件越来越牛逼,算法也越来越牛逼,参数也越来越多(原来只能算十几个数加减乘除,现在能算好几亿个数加减乘除)。

这时候 ChatGPT 就出现了!到了很多人第一次接触 AI 的名词。所以 ChatGPT 不是什么新鲜的技术,只是参数越来越多硬件越来越牛逼大力出奇迹之后量变引起质变的产物。


原来 AI 只能完成一些比较简单的任务,来个人脸识别和智能(ruozhi)客服牛了不得了,现在突然感觉和它对话有了思考!微观到宏观量变产生质变大力出了奇迹这就叫涌现,其实之前有一个个小神经元组合训练出能识别数字的这种小功能也属于涌现。而由于模型里的参数特别特别多,所以大家就叫它们为大模型。


现在这些词就慢慢熟悉起来了吧,都是这几年刷屏的热词。

---


ChatGPT 出现以后,第一波问的最多的人就是这是个啥?大部分人因为不会搜索和网络问题没搞懂 ChatGPT 是啥东西,其实就是个聊天页面。这东西之所以这么出圈就是因为使用起来太简单了。

再之后各种媒体把这玩意吹得没边,造了一堆新词解释来解释去把人搞得晕头转向,我们现在来捋一捋。

第一个令人困惑的地方就是 ChatGPT 不能上网,所以不知道最近发生的事儿。我记得第一版 ChatGPT 的训练数据只到 2019 年。这个就是说模型训练完之后就是一堆带权重的参数,说白了就是一段特别特别复杂的程序算法,是写死的。做不到一个人和他交流一段时间之后让它变聪明或者掌握了新知识的能力。你想让它变聪明只能重新拿一批数据训练它或者重新把模型本身的代码改一改,光是使用它和它对话是没卵用的。

第二个令人困惑的就是 ChatGPT 后来又可以上网了,能知道最近发生的事儿了。这本质上就是有联网工具在回答你的问题前先去搜索引擎搜一下数据,然后把搜出来的数据和你的问题放一起再让 ChatGPT 回答。ChatGPT 能做的仍然只是根据一段文字然后输出给你另一段文字而已。

第三个点就是私有化知识库,现在 ChatGPT 不是能和人愉快地文字沟通嘛,也能通过别的工具联网查东西再沟通。但提前告诉他一大堆你个性化的前置的知识,比如你公司的资料库,比如一本小说等,让它先了解这些资料后再和你沟通,这个不想点歪点子光靠 ChatGPT 自己做不到。

有几个办法可以实现这一点,第一种就是增加上下文长度,就是每次对话前先把一整本小说输入进去作为你问题的上下文然后再问问题,但这一听就很有局限性。

第二种方法就很取巧了,我先把一本小说拆成一段一段的存到数据库里,然后每次问问题的时候先去数据库中查一下相关的部分拿出来,和你的问题拼一起作为上下文去问。这叫做检索增强生成 RAG,用的数据库一般是向量数据库,存入和查询时使用的手段叫 embedding,就是把文字图像视频等高维数据映射成低维向量。其实这他喵的就相当于把问题和答案都提前查好了告诉 ChatGPT 了然后让他回答,放在真人对话这就好比问「我叫xxx请问我是谁」一样。现在很多公司的知识库和一些市面上流行的知识库搭建工具就是玩的这一套。


第三种方式就是微调,英文名叫 Fine-Tuning,这个有一定技术门槛,你看到一些训练成某个明星和你对话的聊天模型,声音克隆技术等,都是基于预训练模型的微调。简单说像 GPT、BERT、LLaMA 这些都是预训练模型,就是已经经过大量数据训练的模型参数已经差不多了,这时你再用你的个人数据简单训练训练,就能学到你的知识了。完全没经过训练的模型就像刚出生的孩子,预训练模型就像已经学会了爸爸妈妈的孩子,这时你再教他什么是爷爷奶奶就更容易了。

当然你也可以从一个裸的没经过预训练的模型从头开始训练起,不过除非你财力雄厚。

---

前面都在聊 ChatGPT,不过现在放眼整个 AI 覆盖面,ChatGPT 其实只是 GPT 模型在对话领域的一个应用,GPT 模型也只是基于 Transformer 模型在文本-文本生成领域的一个预训练模型。

现在越玩越花样,人们平时看到听到的东西无非就是文字、声音、图像、视频,那么这几个东西排列组合一下就是大模型的多模态能力,说白了就是多种形态嘛,不再只是文字-文字了,而是文字-图像,文字-视频,图像-视频、图像-文字等等等等这些啰里巴嗦的转换。

每种转换又对应好多种不同的应用场景。比如文字-文字的不光有对话,还有翻译、写文章、写代码、解释代码等,文字和图片的就有 AI 绘图,AI 解释图片、AI 修图等,这些想象空间和应用场景就大了去了,也是为什么现在每天一大堆 AI 应用和名词出现的原因,同样几个基本的技术玩出花来了。

整理下比较流行的,文字-文字的刚说过了,都是基于 Tansformer 架构写的几个预训练模型家族,现在被 OpenAI 的 GPT 家族、谷歌的 BERT 家族还有 Meta 的 LLaMA 家族瓜分了市场。


文字-图像的也就是 AI 绘画领域,早期是用生成式对抗网络 GAN 模型来实现,现在被扩散模型给秒杀了,也属于老早就有的领域突然质量好到人们拍手称赞的程度而火出圈。具有代表性的就是开源的 Stable Diffusion 和闭源的 Midjourney 还有 Dall·E 2,最先火出圈的就是这个 MJ,还记得朋友圈刷屏的一张图吧,就是 AI 突然画的太逼真了。


文字-视频领域现在似乎还没有什么突破,不像 ChatGPT 和 MJ 有大量真实的作品,文生视频还处于噱头阶段,OpenAI 的 Sora 喊了好久也没看到影子,字节的豆包大模型倒是进入了体验阶段效果也还挺炸了,但还需要更多时间验证。

文字-声音比较简单,之前生活中大家一直就在用了所以没那么炸裂,只是借着这次 AI 浪潮更上一层楼了,比如现在克隆一个人的声音达到几乎 100% 接近已经不是难事儿。抖音直接 5s 语音就能几乎完美克隆你的声音,一些开源项目如 GPT-Sovits 也能通过几分钟的声音训练在个人电脑上轻松克隆你的声音,而且这是咱国产的哟~


这一切的多模态玩法,虽然使用的是多种不同的底层模型,但都有 Tansformer 模型的加持,这一切为什么和之前有质的飞跃都要感谢这个东西。

---

聊完这些基本的东西,再看现在的一些偏应用的生态就容易理解了。

大模型逐渐进入了寻常百姓家,原来只有企业级算力才能完成的模型训练和推理,现在普通老百姓用一台破电脑也能运行了。那这里为了让模型在低性能电脑上也能运行就有蒸馏、剪枝、量化等,分别对应模型迁移、减少参数、减小精度等,目的都是为了让模型在更低性能的电脑上跑起来给普通人用,不然怎么好宣传和售卖呢?

另一方面人们不满足于单个 AI 应用的能力了,想要多个 AI 或者多个步骤组合起来形成更强大的功能,这就有了智能体(agent)和工作流引擎(workflow)这俩概念。

智能体最开始有个 autogpt 声称可以一句话自动完成自己查资料自己问问题自己写报告等任务组合火爆了,其实就是几个 ChatGPT 自己和自己对话不断推进任务的进行。但后来发现效果屁都不是就灭火了。

工作流引擎就是方便把一个个步骤组合起来形成所谓的智能体的工具,比如我想开发个智能体让它先去网页爬取文章,然后根据文章仿写一篇新的文章并生成一张图片,然后自动发送到某些博客平台薅羊毛,很多卖 AI 副业实现财富自由的教的就是这个破玩意。这就可以用一个工作流引擎把这些串起来,就是方便普通老百姓无代码开发而已。

AI 工作流引擎呀智能体呀这些概念并不神秘,好多工具你用一下就明白咋回事了,比如适合搞文字类的智能体开发工具 dify 还有字节的 coze,比如稍复杂点的用于搞 AI 绘画的 ComfyUI,还有现在好多的零代码开发 AI 应用,都是这回事儿。由于这稍稍有点技术门槛然后做出的东西也算有些差异化,所以很多人也售卖生成的作品或者出售技术教学服务。


再者对来发人员也越来越友好,比如方便人们本地构建和部署大模型的 ollama 工具,原来人们想用个大模型,要先去把大模型下载到本地,下载到哪了也不知道,怎么运行也不知道,一大堆模型文件稀里糊涂看不懂,现在只要 ollama run xxx 一下就能一键运行了,方便了而已。


更面向开发者的 LangChain 框架作用也是如此。所以其实大模型现在的很多新东西新概念,技术突破已经越来越少了,更多你听到的乱七八糟的名词,大概率都是为了一个共同的目标:平民化。让老百姓更方便使用 AI,创造 AI 应用,用更垃圾的电脑也能运行 AI,或者不用自己的电脑只要能上网就能部署自己的 AI 应用,你看现在的 GPU 租赁平台和云电脑是不是越来越火爆了。

除了这些之外,其他的各种噪音就可以忽略了,现在天天有人喊着出来个东西改变世界,大概率只是应用玩出点花样或者多模态之间的配合发生了点化学反应。。

---

未来 AI 技术的发展,模型本身的增强到下一个令人惊叹的阶段可能短期达不到,你看 GPT-4 出现一年多了还是地表最强。大模型真正的突破到下一个涌现的点,可能要 GPT-10 或者最开头的符号主义有了什么突破改变 AI 格局吧。

多模态的发展互相促进会有一些突破,比如现在的数字人、语音克隆、文章仿写以及未来的视频生成,人人都是导演的时代可能会到来。当然这也预示着 AI 伦理和法律方面一定变得很复杂,现在语音诈骗视频诈骗比以前多了不少,因为语音和视频从能听出是 AI 到听不出是 AI 这一点点小的提升马上使诈骗有了质的飞跃。你再看看各平台克隆声音克隆形象等都需要你先签署一份协议。所以这块可以关注。

对个人来说 AI 工具甚至 AI 开发越来越平民化,那必然越来越多的人会尝试把自己打造成超级 AI 结合体让 AI 辅助自己工作和生活,可能会 AI 的人真的和不会的差距会拉大。不过你不要觉得不是 AI 专业或者不是做技术的就不可能学会 AI,完全没关系。

好了,本文就是我的一些看法,希望可以解开你进入 AI 新时代的一些困惑。


第二篇文章《我克隆了一个自己的声音,说话比我本人好听》

你有没有想过克隆自己的声音呢?先说下我用的不是网上需要购买的服务,我是直接在我自己的电脑上用了 10 分钟不到的语音素材训练了下,所以是完全免费而且随时随地都能用的。

先来听听效果吧,你觉得下面哪个声音是 AI 的呢?请把它找出来。

文本:想想看如何识别出一张图片是车呢?其中有一个办法是告诉我一个规则


你听出来了么?先不要往下滑,忙猜一下。

···

说个好玩的,我录了一堆之后,自己都忘了哪个是我录的哪个是 AI 生成的了,搞的我最后去和我手机录音机里的声音对比,才想起来哪个是我本人录的。

实际上除了第二个(v2)之外,剩下的四个都是 AI 生成的。

说实话我觉得 AI 的声音已经比我自己的都好听了,我自己得找个安静的环境,并且聚精会神才能录出这个效果。第二个音频就是我在一个安静的环境下并且后期用了 Adobe podcast 极大优化了声音质量后的效果。


但 AI 可以随时随地用我的声音说个不停,不用挑环境不用酝酿情绪。

我这个还是仅仅用了 10 分钟素材,声音也没那么讲究,语音文字的校准也懒得做的情况下,就达到了以假乱真效果了。

如果认真些,专业录音棚里(其实现在 AI 也能轻松把随手录的声音变成录音棚水准了)录上几小时的素材,认真打标记,那么效果还真的比自己的声音还好听,因为自己说话会累但 AI 不会。

现在网上的声音克隆都要收费,简单的有剪映的声音克隆功能,是按字收费的(两个字一分钱,而且生成了之后效果不满意也不能退只能再重新生成一遍)。还有的像豆包大模型等平台可以克隆声音,但更是克隆音色和生成声音都需要收费,且有时间限制。



这肯定就没有自己本地搞一套一劳永逸且免费的合适了,而且自己的声音真正好好训练的话能搞出超级超级逼真的效果,比买的要好很多,几乎能 100% 还原了。也能搭配工作流配合其他 AI 工具实现一些自动化的事情,想象空间就很大了。

我准备再调几天,好好录一段自己的声音并且认真打打标记,看看能不能让我自己正式退休。


后续也会出个教程来讲解下,别担心,整个过程特别简单,也不需要什么高端的电脑,一个破笔记本足够。

---

公众号后台回复 ai666 可加入「智者」微信群,一起探索可能未来,我和群友们也会在里面随时分享我的经验和心得,包括刚刚的声音克隆过程,和大家一起共同成长,保证 AI 时代不掉队。


第一篇文章加社群6个人,第二篇加社群30+人。第一篇4686人,第二篇阅读2383人。


你是一个顶级爆文专家,互联网创富家,顶级内容商业化专家,请你分析下二者转化率的原因。

发表评论: