您现在的位置：lampyt>> 数字文件>>正文内容

杨光：Web3世界中数据确权算法透明，生产力大释放

作者：来源：发布时间：2023年09月24日点击数：

本系列讲座由文汇报与上海树图区块链研究院联合主办。上报集团融媒创新空间运营团队提供本次讲座技术支持。

经整理分主讲、对话、提问三篇以飨读者，此篇为主讲。

大模型带来数字生产力飞速提升，2023年3月《时代周刊》封面

相信很多人都想像过未来的互联网、数字世界会是什么形态。2021年3月 “元宇宙”概念被正式关注并掀起热潮；2023年6月，苹果公司发布了重磅产品——MR头显设备Vision Pro，让刚降温的元宇宙热度再度燃起，业界普遍认为这个硬件将成为未来元宇宙的入口。2022年下半年到2023年上半年，AIGC（人工智能自动生成内容技术）火爆，AI绘图软件如Stable Diffusion、MidJourney、DALL-E等，能依据指令快速生成图片，自动编码插件Github Copilot，可给出示例代码和建议。它们本质上都体现了大模型带来的数字生产力的飞速提升。

但随之而来的是，新的生产范式带来的版权争议直接限制了应用场景的推广。数字领域生产力发展已经超出了当前生产关系的水平，它们之间的割裂迫切需要新的技术去破解，此时曾经以区块链技术做底层支撑的Web3显示出技术优势，在这个层面上，我们今天再来讨论Web3这个新方式支撑的下一代互联网。

生产关系受困：

迭代生产力理不出收益分配

AI代码生成软件问世之后，很快被人质疑代码涉嫌抄袭，因为在某些任务上生成的代码和开源的代码非常雷同，使得该软件目前很难大规模商用。绘画也有版权争议，因为版权保护画作的具体内容，而无法保护绘画的风格。AI学习人类的风格这件事很难评判，但这样的软件会因为遭到抵制而无法商用。

*提供软件训练数据的人群难以获益

为什么数字世界里的生产会有如此多的版权问题？这就要从整个数字世界新的生产范式说起。以典型大模型生产流程为例，最开始要有原始数据，要对原始数据有标注，从标注好的数据应用各种算法去进行人工智能的学习、训练，生成模型，再把模型做成产品，做成产品以后，通过给这个模型下达一些指令，给它一些引导，模型会生成我们想要的内容。比如命令Stable Diffusion生成某个主题的图片，它生成一个图片结果，这个结果有可能被用于训练下一轮的模型。

Stable Diffusion生成的图片有可能被用于训练下一轮的模型

在整个生产流程中，谁受益最多？一是科技公司，他们负责做人工智能的算法研究，提供了产品，对外提供服务可以收费；二是直接使用这个模型的用户，因为只有当模型可为用户产生价值的时候，用户才愿为此付费。但其他参与者，例如提供数据的人、提供标注的人，他们就很难从大模型的盛筵中分享到合理的收益。举个例子，如果ChatGPT提供服务赚到许多钱，Open AI公司会有收益，直接使用这个模型的用户会收到一部分收益，但是提供这些训练数据的人很难得到收益。

当我们把生产流程套用到现在比较熟悉的流程上来看，前面的数据和标注都是整个生产过程中的原材料，算法和模型属于生产中的工具或者机器的角色。调用模型的用户更像是生产活动的管理者，比如一个公司的高管或者一个机器的操作者，他想做什么产品，就会去操作机器产出最后的产品。在这个过程中，提供原材料的一方，石油也好，铁矿石也好，提供了它是有收益的。但在数字世界里，产出的结果对于原材料而言，并没有给他们一个很合理的收益分配，所以才会有诸多侵权质疑。

*数亿人创造的数据很难理出收益分配关系

为什么新的生产方式会有这些问题呢？这和数据与算法自身的特点有关。从技术上来说，大模型AIGC先进的生产力创造的价值和原材料、原始数据之间的因果关系比较难以量化。可以说整个数据集创造了整个价值，但是具体到某一次使用、某一次调用，用了哪些数据、那些数据权重是多少，有没有因果关系？这件事很难说清。

大模型带来的新型生产范式

即便有了量化关系，把钱分配给众多提供数据的参与者也很困难。现实世界中的原料供应商数量相对还是比较有限的，例如大飞机这样一个非常复杂的产品，它的供应商总共也就是几万个的数量级。但大模型动辄运用几十亿、上百亿甚至上千亿数据，比如ChatGPT训练出来的结果，保守估计使用了1亿人、甚至10亿人创造的数据。

即使科技公司主观上愿意将大模型的收益公平分配给提供数据的人，但在现有的技术上也很难实现，因为不知道该分给谁多少钱。在没有理顺收益分配关系的情况下，谈AI对于生产力的提升，一定会有人认为在整个链条中受到了不公平对待。比如实际上提供原创内容人，他们会认为自己被AI剽窃了。这些困境都和数字主权的缺失有关。

*无数字主权易引发版权讹诈，“大数据杀熟”难以自证

目前，数字主权在很大程度上存在一些缺失，一方面，很多数据是互联网平台垄断公司所控制，导致数据可能存在泄露的风险，有时会侵犯用户个人的隐私。

另一方面，在数据主权不确定时，会出现版权讹诈的风险。微博上曾有一热搜，某摄影师将自己拍摄的照片发布在自己的公众号上，某天收到律师函，称其侵权要支付版权费并赔偿。这件事中间涉及到多层版权代理问题，关键是很难验证。

更有甚者，打车平台或外卖平台通常都会给顾客发推送，平台算法会告诉顾客某样产品要花多少钱，但同样的打车行程或同样的外卖，会因为所用手机较高端较贵，平台所给报价就高一些，反之报价就会低一些，这就是所谓的大数据杀熟。通过大数据对个人过往行为做分析，判断这个人对价格是否敏感，然后让付费能力更强、对价格不敏感的人多掏点钱，让价格敏感的人少掏点钱。这件事就很不公平，是对公平交易权的侵犯。

现在个人的数据都在平台公司，推荐算法也在明面上运行，推荐算法到底是怎样生成推荐结果的？如何计算价格的？这一过程又不是特别透明，这个时候技术公司也很难办，它想表明自己的算法是完全公平的，但是如何证明算法的公平性？这也是Web2.0 的技术很难解决的一个问题。

数字主权缺失引发的各种问题

*如何解决收益分配问题？一是数据确权，二是算法透明

既然问题出在数据和算法方面，必然要从数据和算法两方面入手。

第一，在数据方面要对数据做确权，确定每一段数据属于谁，如果这个数据涉及到其他权益，也要确定来源。确权之后，再谈收益分配，有一个主体接收收益，即便是一个虚拟账户、虚拟积分也可以。这样才知道这个收益该分配给谁。

第二，算法需要有可理解的透明性。如果算法是一个黑盒子，中间产生了什么，完全无法让他人信服。为此需要让整个算法实现透明性，并且模型要具有可解释性，最终才能保护所有参与者的知情权以及在参与中的平等地位。平等地位是指让参与者知道使用者利用数据做了什么事，产生了什么效果。

综上所述，如何建立新型生产关系？需要用到数字主权。数字主权指个人或者组织对数字身份、数据、算法的所有权、控制权和管理权。数字身份就是对数据做确权时要有一个确权主体或权益载体，数据是整个数字世界生产的原材料，算法是生产的过程。需要从身份、原材料、过程都有一个明确的权属和关系以后，才能实现整个生产过程利益的合理分配。

新生产力突围：

区块链和密码学发力

要解决数据与算法带来的问题，最终还是要靠技术的发展。2023年6月，上海市科委发布《上海市“元宇宙”关键技术攻关行动方案（2023-2025）》，沉浸式技术和Web3技术成为两个主攻方向。前者是能够构建三维虚拟互联网空间的技术；后者是保护数字主权所需用到的技术。

Web3技术成为上海市的攻关项目中两大主攻方向之一

* Web3与“三体透明思维”相似：公开透明信任

如果把元宇宙看成未来数字世界发展的方向，那么这个方向有两个维度。一是生产力维度，包括人工智能、大数据、云计算、扩展现实等技术, 这些技术提升的是数字世界的生产力，让计算机处理信息的能力更强、效率更高。二是数字世界生产关系的变化维度。Web1.0、Web2.0再到Web3，是按照生产关系划分而非单纯生产力的变化。Web2.0的典型特征就是用户可以参与，没有用户参与，再好的硬件和网络设备，也只能做出 Web1.0 的应用。若想达到Web3的时代，还需将数字资产、数字身份，以及整个生产关系进一步理顺，让数据和价值归属到个人，不受平台掌控。

Web3与以前到底有什么不一样？让我们回到科幻小说（“元宇宙”就是从科幻小说《雪崩》开始的）《三体》。书中提出了“透明思维”概念，每个三体人的想法都会广播出去，不需要任何编码、语言，三体人之间就能够接收并感知其他三体人的想法。这种交互方式达到的效果就是三体人之间完全公开透明，互相没有隐私且互相信任，这种非常高效的协同组合在一起形成一个所谓的“人列计算机”，就像计算机里的元件一样。

这个概念后来被认为反映了区块链的理念。《三体》一书创作时间早于比特币，但有一些相似理念。可能两者受到共同源头的影响。

科幻小说《三体》发表于2005年，在比特币诞生之前来自网络

*拜占庭容错共识：Don’t Trust，Verify！（不信为信）

那么地球人能否用这种思维去构建一个互相信任的系统？答案是可以，这就是所谓的共识机制。要达到的目标是让系统中的所有节点达成一致共识。传统的分布式系统，主要研究如何让同属于一个机构的机器保持一致。这些机器之间是可以互相信任的，运行的算法都是已知的，就像思维互相透明的三体人一样。这个时候只需要考虑有机器宕机的情况，也即故障容错（CFT）。

而现在这些机器从三体人变成了地球人，思维不再透明，也就是说，这些电脑被不同单位、不同组织控制，上面运行什么程序，是否被修改过，已经无法完全信任。被修改过的程序可以向别人撒谎，这种情况下能否实现一个系统，且让大家还对这个系统的最终状态达成一个共识，即形成所谓拜占廷容错的共识？

对此，区块链技术可以做到。其根本思想是，在看到他人告诉我的结果之后，要通过自己的验证才能相信。区块链里有一个说法“Don’t Trust，Verify！”，中文可以译为“不信为信”，即我不相信其他人，亦不需要考虑这个人是谁，他说的事情必须经过我自己的逻辑、技术的方式验证通过才能相信，最终目的是希望达到我对整个系统的高度信任。

故障容错到拜占庭容错共识的原理

*哈希函数：如现实中的“骑缝章”保障数据不被篡改

区块链中有一个很重要的概念是抗碰撞的哈希函数。效果是，任何一个数据无论多长，无论是图片还是视频，经过运算可以得到一个固定长度的输出。这个输出就叫做哈希值，可以把它理解为原始文件的数字指纹，每个文件的指纹都是不同的,就像现实中每个人的指纹不会相同一样（数学上有可能相同，但是现实中两个文件的哈希值相同的概率极低，可以忽略不计）。区块链的可验证性，最基础的就是通过哈希函数、通过数字指纹来实现。

在区块链的数据库，它的结构和之前数据库最大的区别是，每一块数据要对前面的数据块做一个哈希运算，得到的指纹放在这个数据块里，下一块数据又把这块的指纹放进去，形成所谓的区块链。如果篡改了一小部分数据，局部变化会影响到后续所有的区块，它的指纹就会改变，为了维持所有数据块之间的链状关系、维持其合理性，所有区块都要一起修改。

对区块链的数据库来说，技术上并不是无法修改，只是无法暗自修改一小块数据。要修改就要把从修改的这块数据之后的所有内容都修改，这种改动很难逃过他人的观测。

哈希函数起到的作用就像现实中的骑缝章，在数据世界里，所有数据都可以盖上“骑缝章”以保证数据不可篡改性。

类似“骑缝章”功能的哈希函数

*第三代密码学技术：可保护数据的隐私性和正确性

此外，数据本身的隐私性如何解决？这需要依靠密码学技术来解决。

第一代是比较简单的加密、解密。加密和解密的密钥一样，都可以确保信息保密性和完整性。第二代是数字签名用到的非对称公钥，加密和解密的密钥不同。打个简单的比方，第一代的对称加密有点像带锁的盒子，没有钥匙的人无法打开，而有钥匙的人都可以打开，但如有改动我们无法知道具体哪一个带有钥匙的人所为。第二代的非对称加密像一个印章，在文件上盖戳，其他人知道是我盖的戳、我认可的文件，因为这个戳无法伪造。

第三代密码学技术保护的是计算过程的隐私性和正确性。就像监督员的角色，可以监督你是否按照所有的规定进行操作，但它又会对其看到的内容进行保密，只告诉别人你做的事情合规、正确、流程完整。有点像现实中的监督机制。

不同的技术实现功能也有差异，存在许多应用场景。例如，第三代密码学最早的技术被认为是安全多方计算。其源自姚期智先生于1982年提出的“百万富翁问题”，即两个有钱人想比富又不想透露具体财产，怎么办？姚先生表示，这件事可以通过密码学的技术得到解决。这其实就是比较数字大小，在此基础上可以做出很多更复杂的应用。

姚期智先生于1982年提出的“百万富翁问题”

比如可以设计一个用于选举的应用，每个人投票后对他人保密，但又可以保证最终得到的结果是根据投票的情况计算出来的。或像电子拍卖一样，每个人可以分别出价，按照拍卖程序计算，最后得出谁的出价最高，获得拍品。但其他人并不知道别人的报价与最后的成交价。

*零知识证明:可在不提供任何信息的前提下使验证者相信

密码学技术上还有一个非常有趣的零知识证明，指的是证明者能够在不向验证者提供任何有用的信息的情况下，使验证者相信某个论断是正确的。比如，证明者向他人证明这个数独是有解的，最简单的方式是什么？就是证明者填好后告诉他人，他人验证填好的数独确实是正确的，就知道这个数独是有解的。但在许多场合，这样的验证方式是不可接受的，因为有些商品在使用后就不再具备可销售性。零知识证明可以解决这个问题，也可以证明许多别的问题，比如证明一个方程是否有解，一个数字签名是否是本人生成的。

*同态加密技术:让别人帮我完成计算任务但不知道内容

同态加密技术是指先加密后计算和先计算后加密，最后得到的结果相同。同态计算的情况下，明文计算与密文计算的结果是相对应的，把密文进行解密就可以得到真正的明文结果。在这个过程中，计算者看到的所有东西都是密文，同时计算者又可以把很繁重的工作完成，最后得到一个结果，但可以把结果给别人，付款方会认为该结果是有用的。现在新技术在得出结果时，会向他人证明，该结果确实是经过这些计算生成的，而非凭空编造的。

举一个很简单的例子，比如明文数据就是（x，y），加密后得到（gx，gy），从一个乘方还原回原来的数去求对数，计算成本会非常高。密码学实际上会用一些更复杂的数学结构，比如椭圆曲线群，在上面求对数的难度更高。从（x，y）计算x+y，得到这个结果很简单。gx和gy做同态加法，同态加法在密文域上可以当成乘法，可以计算出gx+y，x+y和gx+y就是明文和密文的对应关系。但是从密文很难直接推导出明文是什么，除非有密钥可以解密。同态加密解决的事就是，让别人帮我完成许多计算任务，但我又不想让别人知道计算的内容是什么，这是很有趣的技术。如果加法和乘法都可以做，也被称之为全同态加密。

*差分隐私技术:问询作弊等敏感问题但不撒谎

如果要给三体人做一个敏感问题调查问卷，比如询问他们有没有作弊过？这件事他们无法撒谎，但又属于敏感问题，他们只能不回答。这就是差分隐私技术，现在很多互联网公司已经在使用了。例如，一共有64%的人曾经作弊，这不叫做隐私，具体到某个人曾经作弊过，这就是隐私了。

如何解决？让这些人先随机扔个硬币，以此决定此人是否回答这个问题，还是再扔一个硬币回答一个随机的答案。根据这个结果可以很容易地推测，里面有一部分人是我们刻意引入的噪声干扰，把最终的统计结果做个简单处理，就可以知道真实的统计结果是怎样的。对应到每个人回答的问题和每个人的真实情况，并没有必然因果关系，这可以很好地保护隐私。

差分隐私技术：不撒谎但又保护隐私

构建新的生产关系：

过程正确、权益确认、信任可期

Web3技术背后的迭代导致了生产关系发生改变。

到Web3时代，最核心的是基于区块链技术的一个中立的计算平台，不受任何机构和组织控制，密码学技术可让别人验证其上处理信息的过程都正确、合规。此时才可放心地把数字身份、数字权益、所有权等的许多内容放在Web3的世界里实现。

凡是数字世界里需要信任的地方都可以用Web3来解决处理。比如非金融场景中比较典型的场景就是NFT数字藏品，在国内比较多；现实世界有物流、安防监控和各种手段进行信息存证，未来发生纠纷时，数字世界的存证留痕会成为证据。典型案例是，在电商平台下单采购，电商平台删掉了这笔订单，区块链存证是可以为购买者找回公道的。

还可实施数字化契约来实现信任问题，例如资金池的风险众所周知。一般我们会把资金托管给有资质、可信赖的人，像保险、信托或者版权代理等可信的中介，这个中介出售的就是合规性和信任度。这种信任在一些比较简单的场合可以被Web3技术直接替代，这个过程是公开透明的，且成本和风险都很低。

更进一步说，你想用数据和别人做一些交换或者帮别人做一些算力交易，目前是比较困难的，但在Web3平台加上一些密码学技术，在未来也有望解决。