中国数据空间的全景图
2024年5月24日,由全国数据资源调查工作组(国家工业信息安全发展研究中心)完成的《全国数据资源调查报告(2023年)》[1]正式发布。这是我国首次对数据资源进行全面调查,堪与CNNIC的《中国互联网络发展状况统计报告》相提并论,而在数字经济统计调查上的价值更有过之。
一、数据资源问题的前因:数据空间与市、场两分
首先需要从未来国家战略的高度,建立对《全国数据资源调查报告(2023年)》所反映内容的理解。先找到具体内容在顶层设计框架中所处的位置,再顺着这种定位读出数据的深意。
这里所说的未来国家战略,是正在孕育中的数据空间国家战略。这是人类自信息高速公路战略提出之后的第二代数字时代空间战略。
先说一下空间战略为什么重要。
人类文明的重大飞跃,来自地理大发现。时空变了,人的活法也就变了。其实这里的空间,说的不是地理学意义上的空间,而是下一次革命中人的活动空间,怎么适应新生产方式。好比猫到了新家,要找一个新窝,怎么舒服怎么来。
第一次地理大发现,将人类的活动空间从农业空间移到工业空间。从让农民舒服的窝,变成让工人舒服的窝。人们熟悉的哥伦布地理大发现,就是对人类工业空间的发现。
有一部交响曲叫《自新大陆》,乐曲开始有一段深沉缓慢的引子,仿佛描写从遥远的海上眺望笼罩在云雾中的新世界,即美洲大陆的印象。新大陆隐喻的就是工业化的新空间、新活法。哥伦布发现新大陆时,没什么顶层设计。如果硬说有什么蓝图,顶多《马可·波罗游记》可以算上。哥伦布让人根据游记计算到中国和日本的距离,结果算错了一个数量级,偶然有了新大陆的发现。
第二次地理大发现,将人类的活动空间从工业空间移到数字空间。我们这一代叫“数字移民”,“00后”一代是原住民。
这次地理大发现的第一代蓝图,就是信息高速公路计划。这一次,人类开始有了关于未来空间的人为设计。《中国互联网络发展状况统计报告》是在这个背景下产生的。第二代蓝图,很可能是不久后将浮现的数据空间国家战略,由中国首先提出。
在这个蓝图中,比第一代蓝图有一个实质性的发现,这就是人类对场的认识的深化。本文就以场这条新的主线为线索来解读《全国数据资源调查报告》,使大家获得一种原住民而不仅是“数字移民”的感觉。
根据公开报道,由中国工程院院士、副院长吴曼青牵头的“国家数据空间发展战略研究”重大咨询项目,对数据空间的基本内涵、核心技术、基础设施和发展路径等进行调研分析、结集成册,发布了《数据空间发展战略蓝皮书》,为我国率先掌握数据要素和持续实施数字技术革命擘画蓝图。[2]
其中透露了一个最关键的概念——“场”。正如中国工程院院士孙凝晖所言:“当下,世界数据空间正在形成,数据汇聚、数据要素化、数据加工场和赋能行业应用搭建起数据基础设施的四层架构。”我理解,这个场包括数据场和数据要素场。
数据场是数据要素价值与相互作用在时空上的分布,刻画了数据要素在数据空间中运动的基本规律。在数据场的作用下,无序的数据要素有序地流通,有序的数据要素流通持续地创造价值。
解读一下,这里的“相互作用”,对应的就是cross。这是“场”的机理所在,相当于波粒二象性中的波。要点是从原子论转向了关系论,而这种关系突出了不同于原子论的“你中有我,我中有你”。人们对“场”这个概念并不陌生,情场中的“场”就是用cross定义的。如元代的《我侬词》:“尔侬我侬,忒煞情多,情多处,热似火。把一块泥,捻一个尔,塑一个我,将咱两个,一齐打破,用水调和。再捻一个尔,再塑一个我。我泥中有尔,尔泥中有我。我与尔生同一个衾,死同一个椁。”
数据要素场是面向社会提供一体化数据汇聚、处理、流通、应用、运营、安全保障服务的一类新型基础设施。可以认为从汇聚、处理、流通、应用、运营到安全保障服务的一系列行为,都具有cross的本质特征。场就是为cross提供的空间,就是cross的“在场”。可以把数据要素场等同于国家数据局新提出的流通基础设施。
场有什么价值?根据院士们的描述,场对于数据及数据要素的价值,具有关联释放、聚变释放和倍增释放的作用。这三种释放其实可以用“数据要素×”中的一个×,一言以蔽之。《“数据要素×”三年行动计划(2024-2026年)》,就是要以关联、聚变和倍增方式,释放数据要素价值。
用场的观念看未来,是工程院迈出的一小步,却是人类迈出的一大步,意义堪比登月工程。因为这是人类在数据本质这一问题上,第一次从“西方中心论”中挣脱出来的思想解放之举。因为以往论及信息空间,虽然讲了关系,但仍是原子论、还原论中的同质关系。在信息高速公路的蓝图中,虽然描述了连接,但并没有“我泥中有尔,尔泥中有我”这种场或量子力学的观念。克林顿在1992年提出的《复兴美国的设想》中,仍然将21世纪的“道路”比附为20世纪50年代在全美建立的高速公路网,并没有指出实质变化在哪里。
人类在物理学中,率先用场的概念(波粒二象性的量子力学)突破了牛顿力学的原子论观念。经过了一个多世纪,才由中国工程院将这个物理理念转化为经济理念。
对经济来说,尤其是把数据要素当作新型生产要素的背景下,如何理解关联、聚变和倍增背后的场论在强调什么、在帮助人们摆脱什么样的传统观念?
这就还要回到cross这个概念上来说。在实践中,以“我泥中有尔,尔泥中有我”为特征的社交(微信、推特)的兴起,把cross的内涵淋漓尽致地体现出来,为全球几十亿人广泛接受。这主要发生在2004年到2024年间。理论上对于cross的反应则发生在2014年。这一年,诺贝尔经济学奖授予了基于cross原理建立的新的经济学,也就是梯若尔的双边市场理论。双边市场的核心概念是cross-network externalities(交叉网络外部性)。可以把双边市场理解为一种以场为核心特征的市场,其为数据场、数据要素场提供了权威的理论根据。场在经济上的作用,就是以关联、聚变和倍增的方式释放价值,提供新增量。场把报酬递增这个概念的内涵,从“一加一大于二”变成了“一乘多”大于“一加多”。这样就可以非常容易地理解,为什么现在不说“互联网+”,而改叫“数据要素×”了。
这对经济的影响极为深远。因为这意味着以往的市场变成了“市+场”。数据要素市场化,到底是“市”化,还是“场”化呢?学者们产生了完全不同的看法。市在“数据二十条”里,称为交易(数据交易),对应场内交易(单边市场);场在“数据二十条”里,称为交换(江小涓称为“数据交互”,等于用的是cross的直译),对应场外交易(即双边市场,又称API模式)。前者以确权为前提,即以原子化为前提,要强化所有权,分清“你我”;后者不以确权为前提,而以关系化为前提,要淡化所有权,强调“你用,我也可以用”。江小涓认为,“多主体生产导致数据生成过程错综复杂,常常是多方主体相互协作的结果,其中包含不同主体不同程度的投入和贡献,确权困难”“如果这样明确地要求先确权才使用,最终可能导致谁也用不了”。
那么,国家提出的数据要素市场化,到底是指什么?是建市(如数据交易所),还是建场(与行业应用结合)?这就涉及了《全国数据资源调查报告(2023年)》的深层背景。“数据二十条”讲的是“支持数据处理者依法依规在场内和场外采取开放、共享、交换、交易等方式流通数据”。也就是说,市与场要结合,场内交易与场外交易要结合,交换与交易要结合。
怎么结合,谁占比重大,谁占比重小?这就要通过《全国数据资源调查报告(2023年)》中的数据来体现了。这份报告中是严格区分数据交易与数据交互的,提到数据交易16次、数据交互9次,每次都是在严格区分上述含义的情况下说的,并且明言调查“覆盖数据交互和交易情况”。如果读不出区分交互与交易这层意思,那就只能外行看热闹了。
二、全国数据资源背后的“所以然”
《全国数据资源调查报告(2023年)》(以下简称“报告”)总的调查判断是:我国数据资源“产—存—算”规模优势基本形成,数据“供给—流通—应用”主体逐渐丰富,海量数据和丰富场景优势潜力亟须释放,数据资源管理和利用整体处于起步阶段。这就是当前的实际。
调查只看相关,不问因果;而理论必须用因果来解释相关,使人既知其然,又知其所以然。下文主要抓住数据要素市场化这条主线,沿着“市(场内)—场(场外)”这一对阴阳主要矛盾,来评价报告对我国数据空间的动态变化(所谓的“易”)的整体把握。
(一) 报告的总评:既看到物,又看到人,较好把握了数据空间的主客统一性
报告的调查对象定位与观察眼界决定报告总体水平的高低。报告的一个突出优点是把数据理解为事物,而不仅是物。这超越了计算主义见物不见人的局限。
报告明确指出:“本次全国数据资源调查以人、机、物广泛连接产生的电子化数据为调查对象,涵盖数据生产存储、流通交易、开发利用和安全管理全生命周期。在调查项目上,强化对数据资源活跃度、应用场景、投入产出等方面的调查分析。”这个定位非常有深意。因为“人、机、物”是数据空间的核心表述与特有术语,包含了主客一元论取向,与美国主流的强调主客对立的计算主义取向(以谷歌为代表)截然不同。
物的视角把数据理解为纯客体,只问数据多少、算力快慢;而事物的观察视角,既要看到物的一面,还要看到人的一面,“事”是人作用于物而生的过程。建立这种主客统一视角,与数据空间的定义是一致的。数据空间用实践体系(主客一元体系)来定义,强调空间不是物(to be),而是人的活动作用于物(to do)形成的体系,即生产要素经过人类社会的再生产实践活动形成生产力。
这种定义的根据,其一可以一直深究到哲学上,如日本广松涉主张从物的世界观转向事的世界观,强调从人的活动的角度理解“物象”。这明显有别于美国人工智能的单纯物质范式视角观察数据;其二可以一直深究到法学上,如中央党校的张恒山教授在6月5日提出的一种重要观点,认为数据确权,确的不是物权,而是行为的权利。提出“无行为,则无权利”。比如没有应用这种行为,把数据当作权利客体界定,急于变钱套现,是行不通的,是在不清楚权利结构的知识背景下的表述。这是非常有现实针对性的。
我国数据资源调查从起步就确定了一个与数据空间发展战略一致的高端视角,已赢在了起点上。从阅读角度看,从主客统一这个高位视角读报告,不仅可以注意到数据空间里死的数据,而且有利于聚集于活的行为(如应用),从动态过程(“事”)中把握研究对象。沿着这样的视角观察数据空间中的行为,是将1.0版的数字化生存(being),升级到2.0版的数字化生成(becoming)来认识。这样在1.0视角中模糊的东西,从2.0视角就容易看清楚。例如,不仅要看到由成本法估值的价值创造,更要看收益法判定的价值实现。以应用主导的观念,明显分出主次。
(二) 报告主要结论的总评
报告中最重要的一个结论是“数据资源管理和利用整体处于起步阶段”。也就是说,先不问数据的to be(“物”,符号)怎么样,先观察一下数据的to do(“事”,行为)处在何种水平。
报告得出的四个主要结论,可以结构化为质料因、动力因、形式因、目的因“四因”说。这是亚里士多德把握事物的完整方法视角。
首先是数据的“质料”所处的状态,描述为“数据生产总量大,但有效供给不足”。我国数据生产规模持续扩大。2023年,数据生产总量达到32.85泽字节(ZB),同比增长22.44%,非结构数据爆发式增长。2023年,全国数据存储总量为1.73泽字节(ZB),新增数据存储量为0.95泽字节(ZB),生产总量中2.9%的数据被保存。存储数据中,一年未使用的数据占比约4成,数据加工能力不足导致大量数据价值被低估、难以挖掘复用。
简单说,从“产得出”这个角度看,数据产出的物量是多了,还是少了?实际情况是,量大,但又不够。其中的含义:一是量还不够大,这是相对于将来数据空间的总容量来说的,还需要继续鼓励供给,不能因为强调应用,就放松了生产;二是虽然总量还有上升空间,但目前也存在局部过剩,过剩的主要是无需求的供给,因此不是要减少生产,而是要提高供给的有效性;三是要提高生产的质量,包括提高可复用数据要素的赋能作用,提高数据的附加值。