见证的头像

信息茧房?平台造神?来聊聊算法对人类社会的影响_音频

1 周长测算
1 周长测算
2 角度推导
2 角度推导
3 词源演变
3 词源演变
4 节目引入
4 节目引入
5 逻辑奠基
5 逻辑奠基
6 代数实现
6 代数实现
7 算法困境
7 算法困境
8 推荐原理
8 推荐原理
9 AI训练
9 AI训练
10 Transformer
10 Transformer
11 三环推荐
11 三环推荐
12 规则调控
12 规则调控
13 争议解析
13 争议解析
14 前时代弊
14 前时代弊
15 正向反馈
15 正向反馈
16 茧房悖论
16 茧房悖论
17 黑箱机制
17 黑箱机制
18 养成算法
18 养成算法
19 流量本质
19 流量本质
20 观点批判
20 观点批判
何时知道
何时知道
结果精确
结果精确
平行光角
平行光角
测量距离
测量距离
地心夹角
地心夹角
周长公式
周长公式
算法伟大
算法伟大
词源误解
词源误解
名字由来
名字由来
词义演变
词义演变
影响生活
影响生活
提出问题
提出问题
节目介绍
节目介绍
莱布尼茨
莱布尼茨
易经争议
易经争议
二进价值
二进价值
布尔代数
布尔代数
理论冷遇
理论冷遇
逻辑三基
逻辑三基
集合等价
集合等价
代数表示
代数表示
视频交集
视频交集
集合运算表逻辑
集合运算表逻辑
布尔代数
布尔代数
信息太多
信息太多
谷歌索引
谷歌索引
引用即链接
引用即链接
权重传递
权重传递
死循环
死循环
随机访问者
随机访问者
爬取概率
爬取概率
配置rank
配置rank
移动时代
移动时代
内容爆炸
内容爆炸
获取方式
获取方式
推荐算法
推荐算法
向量空间
向量空间
小美小帅
小美小帅
向量距离
向量距离
AI训练
AI训练
推荐算法
推荐算法
用户画像
用户画像
消费行为
消费行为
transformer
transformer
语言接龙
语言接龙
四种方法
四种方法
相似度
相似度
三环节
三环节
召回
召回
主旁召回
主旁召回
粗排
粗排
精排
精排
推荐规则
推荐规则
内容保送
内容保送
算法完成
算法完成
算法争议
算法争议
信息茧房
信息茧房
平台造神
平台造神
实际情况
实际情况
信息匹配
信息匹配
信息过剩
信息过剩
前时代
前时代
把关人
把关人
小众内容
小众内容
精准匹配
精准匹配
正反馈
正反馈
支持粉丝
支持粉丝
传统把关
传统把关
精品内容
精品内容
没有推荐
没有推荐
最大茧房
最大茧房
算法本质
算法本质
计算机算法
计算机算法
搜索算法
搜索算法
信息数据
信息数据
无效劳动
无效劳动
黑箱
黑箱
生物演化
生物演化
作茧自缚
作茧自缚
算法机制
算法机制
养成算法
养成算法
平台造神
平台造神
网红翻车
网红翻车
速朽网红
速朽网红
细分领域
细分领域
全网新闻
全网新闻
流量减弱
流量减弱
大众传媒
大众传媒
造神对比
造神对比
算法担忧
算法担忧
农业社会
农业社会
文明升级
文明升级
工业社会
工业社会
信息社会
信息社会
频道介绍
频道介绍

信息茧房?平台造神?来聊聊算法对人类社会的影响_音频

09-24
7 次观看
见证的头像
见证
粉丝:8
主题:20
描述:29
例子:13
类比:2
其他:51
字数:10210

信息茧房?平台造神?来聊聊算法对人类社会的影响_音频

09-24
7 次观看
见证的头像
见证
粉丝:8
见证的头像
见证
粉丝:8
主题:20
描述:29
例子:13
类比:2
其他:51
字数:10210

1 周长测算

注释 何时知道

你知道人类第一次知道地球的周长是什么时候吗?是两千多年之前,公元前240年,古埃及有一位叫埃拉托瑟尼的数学家,第一次精确计算出了地球的周长大约4万公里。

注释 结果精确

现在我们知道赤道的长度为40075.02公里,只差几十公里。对于2000年前的人类来说,这个结果太精确了。

平行光角

所以埃拉托瑟尼是如何做到的呢?其实很简单,埃拉托瑟尼是古埃及亚历山大城的图书馆馆长。有一天他在一本书中读到,在埃及南部一个叫塞伊尼镇的地方有一口井,在每年夏至的12点,太阳光会垂直的射入井中,那么在亚历山大夏至中午也会有太阳正好出现在头顶的情况吗?于是他找了一根杆子,在夏至中午竖到了地面上,并没有长杆,在地面上形成了一个小小的影子。他测量了一下长杆和影子的长度,然后计算出光线的角度是7.2度。艾拉托瑟尼知道太阳距离地球很远,所以在地球看来阳光基本是平行的。但是地球是圆的,所以在地球的不同地方,阳光的角度是不一样的。

注释 测量距离

在古埃及有专业测量圆,他们测量出了亚历山大和塞伊尼之间的距离,换算成公里大约相当于800公里。

2 角度推导

地心夹角

现在所有的条件都齐全了,请问如何算出地球的周长给大家留10秒钟,喜欢思考的你可以把视频暂停一下,看看你能不能打平。2000年前的数学家。现在我们利用初中知识推导一下。首先我们沿着亚历山大和塞因尼之间的直线把地球切开,然后把垂直于地面的井和竹竿向地下延长,你会发现它们正好汇聚于地心。如果太阳光是平行的,那么在夏至那一天,它们与这两条线正好形成这样的一个图形。现在我们已经知道了太阳光与亚历山大在上面这条线形成了一个7.2度的夹角,所以地心的这个角是多少呢?平行线与一条直线相交,内错角相等,所以很显然地心的这个角也是7.2度。

周长公式

已知埃及和塞伊尼之间的地面距离为800公里,也就是这条弧长度为800公里,所以地球的周长等于800乘以360度除以7.2度等于4万公里。

注释 算法伟大

怎么样?要知道地球的周长真的不需要拿卷尺为地球量一圈,我们只需要两根竹竿和一段距离,再找到一定的计算方法就可以推算出来了,这就是算法的伟大之处。

注释 词源误解

算法这个词最早来源于公元9世纪的波斯。著名的数学家阿布杜拉穆罕默德伊本穆萨花拉子密写了一本书,叫做还原于对消的科学。没错,聪明的你一定想到了算法一词与这本书是一毛钱关系都没有的。

3 词源演变

注释 名字由来

他来自花拉子密父母的偶然行为,他们在花拉子密这个地方生下了我们的数学家。于是按照传统,他的名字最后一词叫做阿尔花拉子密,意思是花拉子密那嘎拉来的这个名字在拉丁文中被翻译成那个年代阿拉伯帝国是西方的灯塔。

注释 词义演变

欧洲中世纪的学者为了展示自己的数学修养,经常在需要复杂计算的时候说me,就像现在的小朋友喜欢叫奥利给。久而久之,这个词的意思就变了,变成了一切程序化运算和自动运算方法的统称。

注释 影响生活

然后在英文中它最后变成了alism,也就是中文的算法。算法如今已经影响到了我们生活的方方面面。

注释 提出问题

你出门打车,你中午点个外卖,你能刷到我们这一期视频。很大程度上都依赖于算法。那么算法到底是如何发展到今天的?算法是无所不能的吗?我们的生活会被算法控制吗?我们今天就来展开说一下这些问题。

4 节目引入

注释 节目介绍

大家好,这里是新石器公园。

莱布尼茨

现代计算机算法之所以能够诞生,至少要感谢两个人,莱布尼茨和布尔。作为被牛角爷蒂斯了一生的数学家,莱布尼茨是有这个资本的。他不仅是微积分的发明人之一,还是第一个系统研究二进制的人。

注释 易经争议

据说莱布尼茨认识到二进制的价值是受中国易经的影响,但这个说法是有争议的。因为据记载早在1679年,莱布尼茨就发表了第一篇二进制论文二进算术,而直到1701年,他才从一个叫白净的传教士那里看到了易经的卦图。

二进价值

但不管如何,他是第一个认识到二进制在算法上的价值的,因为他发现二进制可以表示一切数字,于是一切的计算和逻辑似乎都可以统1到0和一的简单判断之下。

5 逻辑奠基

布尔代数

他甚至还认为人的语言和感情也可以被逐步分解为一和0两个项。虽然这只是个哲学思想,他并不知道咋捣鼓出来,但我们也不得不说,这种洞见为20世纪计算机的发展提供了非常好的灵感。如果说莱布尼茨是发现二进制价值的第一人,那么布尔就是真正创造出数学工具的人了。没错,程序员小哥哥们就是你们经常说的布尔,值的那个布尔。1832年,17岁的布尔在草坪上散步,一个想法忽然在他的脑子中闪现出来,他觉得代数符号似乎可以定义逻辑语言。

注释 理论冷遇

22年之后,他发表了思维规律研究逻辑与概率的数学理论基础一书,第一次系统的提出了自己的逻辑代数理论。如此前无古人的概念一经提出,果然立马就没有任何人当回事。

逻辑三基

直到20世纪,罗素在数学原理中给布尔来了个一键三连,这才把他推上了热门榜。1933年爱德华、费米利、亨廷顿把布尔代数做了公底化,布尔代数最终得以大成。那么到底啥是布尔代数呢?说简单点,就是用代数的方法处理逻辑问题。在布尔之前,所有的逻辑推理都是靠文字的,比如著名的三段论,所有新石器公园的视频都要一键三连,这个视频是新石器公园的,所以这个视频要一键三连。但是布尔觉得这玩意儿就是个数学问题嘛,完全可以用数学运算来解决,怎么解决呢?逻辑抽象到底无非是三种基本关系与或非,我们可以把它用集合来表示。

集合等价

现在假设有ab两个集合,逻辑余就是必须既是A又是B所以就是A B的交集逻辑或就是是A也可以,是B也可以,那就是A和B的并集。而逻辑非则是不是A也可以,不是B就是补集了。所以余或非余数学上的交集、并集和补集是等价的。

6 代数实现

代数表示

然后我们用乘法表示交集,用加法表示并集,就可以用数学运算来表示逻辑问题了。

视频交集 集合运算表逻辑

比如我们用N表示所有新石器公园的视频,用T表示这个视频。那么T乘N等于T就表示所有新石器公园的视频和这个视频的交集,也就是这个视频是新石器公园的视频。再举个例子,用U表示所有要一键三连的视频,用N表示所有新石器公园的视频。那么N乘以U等于N就表示所有新石器公园的视频都是要一键三连的视频。所以刚才那段著名的三段论,所有新石器公园的视频都要一键三连,这个视频是新石器公园的。所以这个视频要一键三连就可以表示为T乘以N乘U等于T乘N乘以U等于T乘U等于T也就是这个视频和要一键三连的视频的交集等于T也就是这个视频也是需要一键三连的。

集合运算表逻辑

好吧,我知道到这里你已经彻底晕菜了。数学家果然不是普通人类,除了让大家更晕之外,这些鬼画符有什么用?有用的,至少它可以证明你不是搞数学的料,好吧,这不是重点,重点是代数化意味着有固定的计算公式,也就意味着我们可以叠加复杂的计算,利用公式迅速处理复杂的情况,甚至可以使用某种工具把算法自动化。再结合莱布尼茨的二进制思想,我们用一表示一个集合属于另外一个集合,用零表示不属于另外一个集合。复杂的逻辑判断迅速变成了幼儿园小弯都能理解的计算规则交集。

布尔代数 集合运算表逻辑

也就是逻辑余的运算规则就变成了1乘以一等于11乘以零等于00乘以0等于0并集。也就是逻辑或的运算规则就变成了一加一等于1,1加0等于10加零等于0。这套运算规则离计算机只差一步之遥了。再到信息论之父相农发现布尔代数可以用于逻辑电路等等等等。信息时代的大门打开了,计算机可以帮我们迅速的处理信息,于是人类制造信息的能力迅速增长到互联网时代。

注释 信息太多

新的问题产生了,信息太多,在海量的信息中找到自己需要的信息太难了。

谷歌索引 引用即链接

于是一个全新的划时代算法产生了,这个算法就是谷歌的搜索算法配置rank。在谷歌之前大家已经发现,如果要在用户搜索的时候迅速提供搜索结果,你就不能等用户按下按钮了才想起来去数据库里找他要的东西,你必须提前建立索引。所以搜索引擎最基本的工作就是不断的爬取互联网上的内容,然后把它们整理到一个无比巨大的索引表里。

引用即链接

但在互联网上古时代,计算机并不能理解网页的内容。所以哪一条结果该排在前面,哪一条结果该放到后面呢?你说关键词出现最多的页面就应该排在前面,似乎是对的。但这种方法很容易作弊的。比如我把关键词Ctrl c cl复制上108000次存到一个页面里,所以怎么办呢?直到谷歌的创始人拉里佩奇从论文中获取了灵感。我们知道写论文的时候一般要添加资料来源,也就是引用。一般情况下我们判断一篇论文的权威度,看它的引用量就知道了。一篇论文被引用的越多,说明它得到的认可越多,它在专业内当然也就越权威。切换到网页上引用对应的是什么呢?就是超链接。在一个田园时代的互联网,我们推荐或者使用别人的内容必然会添加超链接,让用户可以跳转到原网页去进一步探索。所以一个网页被链接的越多,也就意味着它的质量越高。

权重传递 引用即链接

而质量高的网页推荐的其他网页质量一定也很高。所以那个链接带来的权重也是不一样的,高质量页面带来的权重必然更高,于是我们就可以爬取网页所有的链接,然后按照进入的链接数和这个链接的权重给每个网页打分了。

7 算法困境

注释 死循环

有了这套分值排序的问题就完美解决了。这大概就是你在大多数科普视频中对配置rank的解释了。但是如果你按照这套算法写一组代码放到网上去跑,很快你就会发现新的问题出现了。每个网页的值都在无上限的快速增长,就像陷入了死循环。

随机访问者

什么原因呢?是因为网页中是存在循环链接的。比如我们最常见的导航,每个页面都至少会有一个到首页的链接。这就会导致如果程序爬取页面所有的链接,那么它很快就会自己绕回来,然后它爬出去又绕回来,每次绕回来都给这个页面打个分,陷入了死循环。如何拯救这个陷入循环的程序?答案是用随机访问者算法来模仿用户访问程序可能会爬去页面中所有的链接,但是用户并不会,他在一个页面中每次只可能点击一个链接然后跳出去。所以我们不妨让程序模仿用户的这一行为。从一个页面开始找到页面上所有的链接,然后随机选择一个,顺着链接爬到另一个页面。然后在这个新页面中再随机找一个页面,顺着链接爬下去。你可能要说了,这样只是减缓了爬取的效率而已。只要爬取时间足够长,它还是有可能会回到原来的页面。于是可怕的循环又开始了。所以随机访问者算法中还有一个非常重要的规则,15%的厌倦率,也就是说每次会有15%的可能性,它看不上页面中任何一个链接,直接关掉页面走了。它会随机在互联网上寻找一个新的页面,开始一场新的旅行。也就是这个厌倦率让每一次爬取终有结束的时候。

爬取概率 随机访问者

于是在一个数量巨大的网页中,循环就被终止了。随机访问者算法不仅干掉了死循环,还带来了一份特殊的礼物。在数量巨大的爬取之后,每一个网页被访问的概率会逐渐逼近一个固定的值。比如下面这组网页,如果你写一个程序来模拟爬取过程,最后你就会发现,不管你的程序重新开始多少次,网页D被爬取的次数总是最多的。它被爬取的概率接近15%,这个概率反映了它在整个网页中的重要程度。

配置rank

把它和配置rank结合,我们可以更好的给网页做出排序,这就是改变整个互联网的配置rank。

注释 移动时代

虽然现实中为了与众多作弊者作斗争,真正的排名算法已经复杂了许多倍,但最基本的原理仍然是这一套方法。直到我们迎来了移动互联网时代,移动互联网把信息嵌入了app搜索引擎,不再无所不能。

8 推荐原理

注释 内容爆炸

更重要的是内容制作门槛的降低,让网上出现了大量的用户自制内容,这让信息量再次爆炸,每天都会产生大量的新信息,仅仅对信息按照重要度、按照权重进行排名已经远远不够了,毕竟对你重要的信息对我不见得重要。

注释 获取方式

所以针对不同的人展示不同的内容,成了解决信息爆炸比较有效的方式之一。更重要的是移动互联网改变了大家获取信息的方式,打开输入框搜索已经不再是最重要的行为方式。对于一个只会用手指上下滑动页面的用户来说,我们如何知道它的喜好需求,在最短的时间内给它提供最有价值的内容呢?

推荐算法

单一的算法已经无法满足需求了,只有A可以解决这个问题。经常看我们视频的小伙伴一定已经闻到熟悉的味道了。没错,A在过去的一系列视频中我们介绍过很多算法了,这其中有不少都跟推荐算法有关。现代A算法多种多样,但说到底本质都是在一个巨大的向量空间中寻找向量的相互关系。

向量空间 推荐算法

为了照顾第一次来的小伙伴,把这个说了800次的例子再举一遍。比如这个向量空间只有两个维度,横轴是喜欢科普视频的程度,纵轴是喜欢搞笑视频的程度。如果小美喜欢科普视频的程度是0.9,喜欢搞笑视频的程度是0.8,小帅喜欢科普视频的程度是0.89,喜欢搞笑视频的程度是0.81。

小美小帅 向量距离

很显然把他们扔到坐标系中,他们的距离就会比较接近。而小坏喜欢搞笑视频的程度是0.95,喜欢科普视频的程度是0.1,那他距离小美和小帅就远了去了。从数学上来看,小美、小帅和小坏都是二维向量,两个向量的相似程度其实就是他们在向量空间中的距离。

向量距离

虽然现实中的向量空间维度可能有成千上万甚至更多,但实际的计算和二维的向量没什么区别,它们的相似程度依然等价于向量空间中的距离。

9 AI训练

注释 AI训练

想更详细了解其中原理的小伙伴可以去看我们介绍的那一期视频。所谓的AI训练,就是通过大量的数据不断调整每个向量的位置,最终找到对所有向量来说最佳的距离。

注释 推荐算法

只需要明白这一点,再去看各类推荐算法就一目了然了。

注释 用户画像

在推荐算法中,所有的方法都离不开用户画像,也就是在向量空间中找到你的位置。

注释 消费行为

但仅仅靠用户画像还是不够的,毕竟用户画像是相对静止的,更高等的算法应该是根据你过去的消费行为推断你未来的行为。

10 Transformer

注释 transformer

其实我们在很多app中都经常遇到这种情况,似乎比你自己还了解你自己。这又是如何实现的呢,在transformer大法之下,一切都不是难题,你的消费行为其实是一个时间序列,语言也是一个时间序列。

语言接龙 向量距离

从向量空间的角度来看,它和语言没什么区别,既然ChatGPT们能搞定最难搞定的语言问题,还玩不转你的消费偏好,所以就像chagpt能轻松搞定语言接龙一样。只要历史消费数据足够多,它就能一定程度上预测你的未来。

四种方法 相似度

那么具体怎么操作呢?简单想一下,在现实中要让A能够快速找到符合用户口味的内容,至少应该有4种方法。第一种也就是最简单的方法,直接给用户分类,把它们划分成一个拥有特殊爱好的小团体,然后再针对这些细分以后的用户推送内容。第二种就是对内容进行分类,如果你喜欢这类内容,就会继续给你推荐相似的内容。第三种就是把内容和用户同时放进去,直接寻找内容和用户的关系。而第四种最复杂,他会首先去寻找用户之间的相似度,然后再根据用户之间的相似度去寻找跟你相似的用户喜欢什么样的内容,然后再推荐给你。比如他可能发现小美喜欢新时期公园,于是就把新时期公园推给了小帅。

相似度

你看到了吗?所有的方法都离不开相似度和关系,切换到向量空间的视角下,就是他们在向量空间中的距离。

注释 三环节

当然,真正的推荐算法会复杂得多,它也不是一次性的就把信息推给你。为了提升程序的效率,至少会分为三个环节,召回、粗牌和精牌。

注释 召回

召回是第一个环节,也就是说从海量的数据中确定你需要的东西,也就是第一步海选的过程。

11 三环推荐

注释 主旁召回

假设你是一个对二次元完全绝缘的人,那么召回阶段就已经把二次元排除在外了。为了让内容既个性化又不错过重要信息,它一般分为主路召回和旁路召回。主路召回主要靠而旁路召回主要靠规则,比如热门内容、最新内容等等,确保真正重要的信息不会遗漏召回。

注释 粗排

筛选出来的物料进入粗排,通过简单的AI算法做一个大体的排列,然后再送到金牌。

注释 精排

在金牌中最强大的AI算法组合,最终确定所有内容的排列顺序。

注释 推荐规则

除此之外,推荐算法也并不是完全由AI主导的,为了更灵活的适应现实,推荐规则也是重要的组成部分。

12 规则调控

注释 内容保送

有的内容比如重大新闻、重要政策需要保送。有的内容比如过于三俗虚假的内容需要打压。

注释 算法完成

最终服务器把这些内容排列出来,发送给app,在你的手机上显示出来。没错,就在你滑动屏幕的瞬间,电光火石之间算法完成了一切,把内容呈现给了你。

注释 算法争议

但与前面提到的page rank等算法不同,大家对推荐算法的看法是存在一定争议的。

注释 信息茧房

虽然推荐算法有时候也不见得百分之百精准,可毕竟大多数人都不喜欢被别人看透的感觉,这成为推荐算法不太让人舒服的地方之一,其中争议较大的就是信息解放问题和平台造神论。信息检防是说,如果AI只会给我们投递我们喜欢的内容,长此以往,我们会不会把自己封闭在一个狭小的信息空间中,听不到不同的声音,加剧社会的割裂。

13 争议解析

注释 平台造神

而平台造神则是说,如果平台掌握着巨大的流量,他们是不是可以按照自己的想法,任意将一个人打造成流量网红?

注释 实际情况

应该说局部的看是有这种可能的。但当你把目光拉远,更全面的去了解恋爱推荐算法之后,你可能会发现实际情况跟你想象的可能并不一样。

信息匹配

从整个世界层面来说,推荐算法不仅不会把人关入茧房,反而会带来更多的声音。

注释 信息过剩

如何理解这个问题呢?在现代社会,所有的信息都是过剩的。在一个信息过剩的环境下,如何让人找到更适合的信息一直是一个难题。

14 前时代弊

注释 前时代

在前时代解决这个问题靠的是人工。我们的出版商、电影公司、唱片公司会雇佣大量的专业人员负责去研究市场,推测大众的需求。

注释 把关人

然后根据他们推测出来的喜好,去挑选合适的作者、剧本或者音乐,然后制作出来投放市场。他们本身就是内容的把关人,但市场需求是非常难以预测的,而人力又是有限的,在这种情况下,为了保证成功率,在选题层面,把关人只能在大众中找一个最大公约数,也就是说最容易畅销的题材或者过去曾经畅销的东西。

注释 小众内容

因此,任何小众个性化的东西都不可能进入把关人的法眼,也就不可能有面向读者和观众的机会。比如像我们这样的深度科普内容,就很难有机会进入传统内容市场。

精准匹配

但个性化推荐就不一样了,有能力挖掘出用户任何一点微小的喜好,然后精心的把最合适的内容推荐给他。只要内容和用户能够精准匹配,即使最小众的内容在巨大的分母下依然能够找到足够的用户。

15 正向反馈

注释 正反馈

而内容的生产和消费是正反馈的,内容有人看才会激励出更好的内容,而更好的内容会带来更多的用户,让内容生产者有更多的信心去做自己真正想做的内容。

注释 支持粉丝

就像我们如果没有各位几年来的支持,没有足够的粉丝量,是绝对不会去做肖尔算法这种内容的。

注释 传统把关

而传统的把关人模式也是绝对不会相信一个介绍量子复利叶变换的视频能够获得八十多万的点击量。

注释 精品内容

推荐算法十几年下来,互联网上精品内容不是更少了,而是更多了。

16 茧房悖论

注释 没有推荐

如果没有推荐算法就不会有我们也不会有很多细分领域的专业创作者,于是一些真正深入的内容就不会产生,也不会得到广泛的分享。

注释 最大茧房

看起来似乎没有信息茧放,但整个世界就是最大的茧放。

算法本质

第二,任何一种算法之所以登上历史舞台,都是要解决人类面临的一个问题。

计算机算法 算法本质

计算机算法之所以成型,是因为人类的科技已经足够复杂,需要计算机来计算手工无法完成的东西。

搜索算法 算法本质

搜索算法之所以大行其道,是因为互联网信息太多,需要更快的找到需要的内容,而个性化推荐要解决的则是信息爆炸的情况下,信息和人的匹配问题。

注释 信息数据

2023年中国每天产生的信息数据已经达到了900亿计。如果没有推荐算法,我们必然会被成千上万条自己不需要的信息垃圾淹没。[

17 黑箱机制

注释 无效劳动

20:28.840]把时间消耗在茫茫大海中,寻找一根针的无效劳动中。更何况推荐算法不仅仅是用在内容推荐上,它还用在各种互联网服务中。在打车时帮我们迅速匹配司机。在找饭店时迅速推荐出你感兴趣的饭馆。在订外卖时迅速匹配小哥和外卖的商品,在电商平台上迅速匹配卖家和买家,在更大的范围内更好的进行资源匹配,避免了资源的空转和浪费。

黑箱

第三,也是最重要的一点,AI算法是一个黑箱,正是因为它是黑箱,反而更不容易被人为操控,你想一想chag的AI幻觉是多么难以被消除就理解了。而从商业公司角度来说,他们也许是最不希望看到信息减房的一方,毕竟如果所有的用户都钻入了信息茧房,就意味着这个平台的内容生态已经死掉了。

生物演化 黑箱

用户的兴趣被封印在信息茧房中不会再变化,平台就只能日复一日的提供相似的内容,老作者坐收红利,新作者再也不会产生,更重要的是内容上不会再有任何变化,就像环境不变了,生物就失去了演化的动力,这意味着平台会失去竞争力,最终被商业竞争淘汰,这在竞争激烈的互联网是最可怕的事情。

作茧自缚

所以信息减防或许存在,但更多可能是用户的作茧自缚。

注释 算法机制

不同的平台算法一定都会提供一定随机性,避免算法上的过拟合,同时提供更多的推荐机制来中和信息减防的危害,比如B站既有算法推荐,也有频道精选和热门榜,而关注列表也是重要的分流池。而抖音则可以自己关闭个性化推荐,同时也有热榜同城频道、双店长视频等内容,用户还可以自己管理自己的偏好。

18 养成算法

养成算法

所以我们如何与算法相处呢?要学会养成算法。如果你把A理解成为一个数字助手,你就该知道它也许每时每刻都在猜你的心思,但是它是你养成的,想来点不同口味,你就需要用不同的习惯来养成它。

平台造神

这似乎也回答了平台造神问题。在旁观者看来,很多平民网红的确火的有点莫名其妙,你说他们这叫神么?他们并不是神,否则神的门槛也太低了。那么这些流量明星是怎么红起来的呢?就是源于内容媒体的传播特点。因为马太效应和28原则,在任何一种机制下,流量总会倾向于不均匀流动。最终因为正反馈聚焦在某些点,并且这在传统媒体时代也是一样的。只不过对传统媒体来说,这种流量给谁很大程度上取决于把关人。而对现在的个性化推荐平台来说,则是算法之上自然客观形成的。也就是说算法只是起到了分流的作用,并不是其中的驱动力。

网红翻车 平台造神

很多人应该都有这种感受,大多数时候我们第一次知道一个网红往往是因为它翻车了。

速朽网红

这其实已经说明了问题。首先网红大多是速朽的,因为对平台来说,江山代有网红出,各领风骚数十天才是最好的状态,大可以让网红自生自灭,改变算法攻身造神才是最不明智的选择。

细分领域

其次,在个性化推荐下,世界被分成了很多细分的领域。大家的主要兴趣也主要关注在这些细分的领域中。所以数年网红无人晓,一朝翻车天下知才成了常见现象。

19 流量本质

注释 全网新闻

现在虽然全网性的新闻依旧可以被我们获知,但大多时候你看一眼就点回感兴趣的领域了。

流量减弱

因为内容和受众的多元化,流量的28原则和马太效应反而大大减弱了,因此已经很难有全明星的流量明星了。

大众传媒

只有在过去那个信息相对缺乏的时代,才存在真正的大众传媒和全民偶像。

注释 造神对比

要论造神,其实没人能比得上几十年前的传统媒体,别因为聚光灯弱了一点就掀桌子,在流量上给普通人一点机会。

20 观点批判

注释 算法担忧

当然除了信息茧房和平台造神,相信很多人对推荐算法还有不少其他的担忧。不得不说我们也很担心自己的认识不够全面。为了准备这期内容,我们不得不看了很多研究算法的社会影响的评论性书籍。随便列几个书名,大家感受一下算法的陷阱,算法的力量,人类如何共同生存、算法社会技术、权利和知识。显然众人皆罪我独醒的姿态更容易获得出版商的青睐。但内容和观点其实没啥新鲜的,大部分是把过去对电视传媒和搜索引擎的恐惧重新包装了一下。毕竟在一个除了赛博朋克已经不会写科幻的世界里,总有人对技术发展充满恐惧,认为小国寡民的田园生活才是最好的。虽然你让他抛弃现代科技创造的物质生活,真正回去过田园生活,他们可能一天都过不下去。所以对于书中的各种旧瓶装新酒的观点,我们就不展开了。

农业社会 文明升级

我们倒是想以人类简史中提到的一个观点作为本期视频的结尾。记得书中曾经说,进入农业社会对个体来说似乎是一次倒退。因为离开了采集生活,食物变单一了,终日劳作,营养不良。但是对整个人类社会来说,这是一次文明的升级,因为只有农业社会的粮食生产能力才能够承受更大的人口基数。

文明升级

扩展一下,人类文明的每一次升级莫不如此。

工业社会 文明升级

工业社会带来了污染和巨大的资源消耗,但只有工业社会才能创造更多的社会财富,发展科技,战胜聚居的疾病,让每个人的生活得到进一步的提升。

信息社会

升级会带来问题和阵痛,但发展最终会解决它们。同样,我们已经进入信息社会的深处,必然需要新的升级。代价和问题总会有的,但变回猴并不是解决办法。

注释 频道介绍

这里是新石器公园,我们关注一切可能影响人类未来的科学和技术,并试图带大家一窥底层的原理。如果你喜欢本期视频,欢迎点赞、投币加收藏。如果你对航天、人工智能、信息数据、生命科学、人机交互以及未来感兴趣,欢迎关注我们。本期就到这里,很快回来,下次再见。

讨论
随记
AI 助理