道理我都懂,可是谁能在拉屎的时候不看手机呢?

言归正传,以前一直叫嚣“技术中立”的我这些年来对技术,尤其是巨🐂🍺的技术,真的是越来越保守了。既然略微涉及到了自己专业方面的东西,不妨稍微多写点记录一下自己想法的改变,以及近期的一些思考,主要想说说两点,技术的非客观性和不可控性。

非客观性

任何对数学或是计算机科学稍有了解的人应当都知道,算法本质上就是一堆数学和运算,定义明确,不存在任何欺骗性和模糊性——给两组一样的输入,就会出来两组一样的结果(起码分布相同)。算法是如此地“笨拙”和“老实”,不管你是资本家还是无产阶级,算法不受贿也不行贿,只做它该做的事,这还不能被称为客观吗?

机器学习有个子领域叫机器学习公平性(machine learning fairness),专门研究算法中的偏差对社会公平性的影响。这个领域的研究经常会提到COMPAS数据集,里面记录了一些被告的个人特征信息与犯罪服刑记录等。研究人员用这个数据集去训练了一个机器学习模型,来预测某人未来犯罪的概率,发现训练出来的模型更倾向于错误地将黑人预测为容易犯罪。数学上,这种偏差一方面是来源于训练数据的分布,另一方面则是来源于一些复杂的因果关系,比如法庭上由于种族歧视等黑人更容易被判有罪。这些问题其实都可以通过技术手段,比如重采样或是引入工具变量等,来克服或是减轻,但它背后更本质的一个问题是:为什么我们的社会需要预测一个人是否有可能犯罪?有很多科幻作品比如PSYCHO-PASS都讨论过这个问题,包括社会心理学上也会从自我实现预言的角度研究该种预测对个人和社会所可能带来的影响。这里只做个简单的想象作为一个小小的思维实验,假设我们训练一个模型来预测犯罪,并希望它能最准确地找出潜在犯罪者,同时又训练一个决策或行动模型来逮捕最有可能犯罪的人,随着两个模型互相产生数据互相迭代,最终“犯罪”这个概念将完全由模型定义。当我们为机器学习算法设定目标时,即准确预测潜在的罪犯,我们是在默认地假设一个人是否犯罪是预先就被决定并且不会为环境所改变的。这种假设和目标的设定本身就存在巨大的问题,其反映的是目标和算法的设计者对于人类社会的偏见。

我们知道所有算法的提出和应用都是为了优化某个目标和解决某个实际问题,但如果我们的目标和问题定义错了呢?我们还要继续使用这些算法吗?问题错了,算法再怎么提升也是白费,it's not even wrong. 刨开它想要解决的问题,算法本身毫无意义,而这些问题被定义的方式,恰巧就反应了问题定义者对于一系列事件乃至整个世界的看法。Algorithms are not objective,它们是一整套价值观的投射,只要我们还在一个人的社会里,算法与其背后的利益关系就不可能也不应当被割裂开。可惜的是,在现在的学术界和工业界,绝大多数全世界最聪明的大脑关注的仍然是如何在特定目标下提升算法的表现,而我们的问题是否定义正确,我们的优化目标是否设计正确,相对来说却不太有人讨论。

这里我想到之前上的一位研究 Science, Technology and Society(STS, 中文还没有翻译)的老师的课,他论文里有一段关于优化算法的讨论特别有意思。优化算法我们一直都在学,求最值、线性规划、凸优化、非凸优化、动态规划、整数规划诸如此类。但实际上,“优化”是一个西方资本主义社会所创造和强化的概念,它的背后是一套利益最大化的逻辑,这在非西方世界的传统价值观中是罕见的。随着大航海时代与殖民主义、帝国时代的演进,这一套优化的逻辑也慢慢根植进了各个民族的思想,也写进了不同国家的教材。我并非是想说“优化”这个概念不好,或者我们不应该研究优化问题,相反,优化问题很重要,并且能建模很多实际问题。但正因为它能建模太多太多的实际问题,我们才更应该加以注意其适用范围,比如一个班里的同学或是一个组里的同事相互竞争,搞成绩最大化利益最大化,硬生生地把非零和博弈考虑成了零和博弈,这种内卷或许只对补课机构和资本家有益。

不可控性

当影片把我们所面临的问题赤裸裸地摆在面前的时候,我才真正意识到并惊讶于,一个我们无法理解、无法控制、拥有巨大预测世界和改变世界能力的技术,竟然早已悄无声息地融入到了我们生活的各个角落。我们一直在思考,如何提升人工智能的极限,或是AI还需要多久才能取代人类,我们看到的始终是AI在人类强项上的羸弱,如关系推理、结构生成等等,就好像AI仍然完全在我们的掌控范围内。但实际上,我们常常忽略的一点是,AI在人类的弱项方面已经做得非常好了,并且我们对其知之甚少。以前中学的时候和同学聊过一些关于基因工程、人体改造诸如此类的话题,结论是这类技术太过神秘、太过强大,在伦理道德和法律条文完善之前就不应该去触碰。现在想来,基因改造相对于复杂的算法来说,或许就是个弟弟。我说“复杂的算法”,并不是因为算法本身的实现很复杂(当然确实也挺复杂的),而是因为现在的很多算法,比如神经网络,本身就是一个“复杂系统”。

我个人认为复杂系统或者混沌理论是人类在20世纪所提出的最具革命性的概念之一,起码本科接触到这个概念之后,我的世界观迅速就改变了很多。复杂系统(complex system)简单来说,就是系统中有多个个体,它们相互之间会有一些交互,这些个体本身的行为模式或简单或复杂,其间的交互也能以各种形式呈现,可一旦当它们构成系统,整个系统中可能就会涌现出一些难以预见的行为模式。复杂系统或者混沌现象在我们的世界中无时无刻不在呈现,比如气象系统,洛伦兹当年就是因为发现自己用微分方程无法预测天气,而开创了这整个领域,大家常说的“蝴蝶效应”,其实指的就是微小的空气扰动也会在未来大幅影响整个气象系统的运行这一现象。除此之外常见的例子还有大脑活动、心脏跳动、股票市场的波动等等。康威在70年人为构造了一个复杂系统并将其命名为“生命游戏”,这里找到了一个模拟器,感兴趣的话可以玩玩。关于复杂系统和混沌理论的研究瞬间就颠覆了17世纪以来的牛顿范式(虽然爱因斯坦早几十年已经从时空观的角度颠覆过一次了),所有的研究结果都告诉我们,这个世界不是你推动小球,小球就会获得一个加速度,然后像你预想的那样运动——当这个世界由千千万万个小球组成的时候,哪怕你完全知道每个小球的受力情况,你也无法预测整个小球系统将会怎样运行。当然,刘慈欣的三体早就科普过,只需要三个小球,就能使任何人、任何计算机的大脑彻底瘫痪。之前看过BBC的科普纪录片《神秘的混沌理论》觉得很不错,里面也提到了在如此混沌的世界中,数学和科学还能为我们做些什么,答案就包括统计学等等,扯远了。

回到技术的不可控性,这里想重点讨论一下深度学习掀起的神经网络浪潮。神经网络(neural networks)是计算机科学家们仿照人类大脑的结构所提出的一个计算概念,在计算中,每个节点都被看做是一个神经元,它接收上游神经元所传来的信号,并在一番处理之后将结果信号再传递给下游神经元。单独看每个神经元的行为其实是非常简单的,就是一个带权求和再套一个激活函数(现目前最常见的激活函数就是ReLU,它保留正的数字并将负的数字变为0)。再看神经元之间相互的关系,其实也非常简单,就是计算结果的传递。然而就是这么一些简单的小小的计算神经元,却能从系统层面上发挥令人意想不到的作用——人脸识别、图像生成、阅读理解…很多理论上的工作都尝试去解释神经网络的运作机制,但目前还没有人敢说他真正地理解了神经网络。其中一个比较有代表性的讨论就是神经网络的泛化能力。泛化能力指的是模型把从训练数据中所获得的知识,应用到未曾见过的样例上的能力。做个简单的类比,就好像是你通过刷题来准备期末考试,如果相同知识点的题,刷题时你学会了,考试时你也能做对,那么你的泛化能力就很好。传统机器学习认为模型的参数或是可变性越多,泛化能力就越差。这就好像是你的记性特别好,过目不忘,那么为了做对题库里的每一道题,对你来说最省时省力的方法就是把所有的答案都完全不加以理解地给背下来,但到考试的时候你就会傻眼了。神奇的是,神经网络并不遵循这一规律,去年OpenAI公开的 GPT-3 语言模型中共有1.75兆个参数,但它在下游任务上的表现却完全暴打之前的模型。近期的一些工作比如 Neral Tangent Kernel 对此细致地进行了理论上的阐述,大体上讲,就是当大量神经元组成神经网络后,整个复杂系统就会涌现出一些新的性质。目前不管是学术界还是工业界,都把神经网络当作黑箱在使用,没有人知道这个黑箱中究竟在发生些什么,更不用说有谁能够做到精准地控制黑箱。

更加令人沮丧的是,神经网络等技术的复杂性还只是不可控的一方面,而另一个不可控因素就是人类社会。人类社会由许许多多的个体组成,个体之间也会经由社交产生各种互动,是一个典型的复杂系统。在人类社会的历史中,我们可以看到很多群体行为的涌现,如政党的形成、经济系统的构建、革命与暴乱等等。如此一个复杂系统本就已经够社会学、经济学、政治学、心理学等学科研究的了,而我们现在还要将复杂的神经网络运用到复杂的社交网络上,其结果想也不知。就如纪录片中所说,这些大佬们在开发产品的时候最多也就考虑了用户粘性等跟商业挂钩的指标,而诸如阴谋论、假新闻的流行,还有意见的极化和青少年成瘾等负面影响,都是在最初的产品开发时所难以完全预见的。至此可以看到,在我们将越来越多的权力交付给人工智能时,情况已经愈发地失控了。

最后

尽管快到末尾时大佬们把AI技术、社交网络等带来的问题归因为商业模式的运作,包括整部片子的译名也被加上了“监视资本主义”,但这些问题的根源绝不仅仅只在于经济形式——again, it's all about power moves. 任何形式的社会,只要有权力结构的存在,就会使算法带有一定的目的性,并且此种目的性也会由于算法和社会本身的不可控性,而造成难以预见的影响。

看到最后真的蛮感动的,有这么多厉害的大佬都不只是在关心自己的个人利益,而是利用自己的视角来为全体人类尤其是还在成长中的下一代做思考,怎么说,算是野蛮屠宰场里人类文明的微光吧。


监视资本主义:智能陷阱The Social Dilemma(2020)

又名:社交困境 / 愿者上网(港) / 智能社会:进退两难(台)

上映日期:2020-09-09(美国)片长:94分钟

主演:杰伦·拉尼尔 罗杰·麦克纳米 斯凯勒·吉桑多 卡拉·海沃德  

导演:杰夫·奥洛威斯基 

监视资本主义:智能陷阱的影评