PeopleData数据层设计 - 个人数据开发利用新范式

数据层概述

PeopleData的数据层（Data Layer）是一个多层次的架构设计，旨在解决个人数据开发利用中的"安全、开放和隐私"三重利益之间的不可能三角困境。

DL0层：数据生产层

负责个人数据的原始生成和采集，是整个数据价值链的起点。

DL1层：个人数据主权基础设施

实现个人数据资产的保护、治理和管理，确保数据主权。

DL2层：数据资本形成基础设施

构建自治、动态、虚拟和分布式的个人数据合作组织，实现数据价值的释放。

DL3层：价值生态层

基于底层基础设施，构建多样化的场景应用，实现数据价值的多元化开发利用。

PeopleData数据层结构示意图

DL1层：个人数据主权基础设施

DL1层是PeopleData架构的核心层，负责实现个人数据资产的保护、治理和管理，确保数据主权。

互操作性

确保不同系统、平台之间的数据互通和协作。

数据模型和格式
数据交收协议
数据溯源和数据血缘

可观测性

对数据全生命周期的处理过程进行监控和可视化。

日志记录
数据处理流程
设备/虚拟机
任务调度

可信

建立数据处理和使用的信任机制。

ID管理
数据访问权限管控
计算信任

资产

实现数据的资产化管理和价值评估。

数据资产目录
数据定价和使用计量
数据发布、交收等市场服务

治理

建立数据治理的规则和机制。

商业模式
运营
操作规范/标准

互操作性详解

互操作性是确保数据提供者、数据消费者和数据生产者之间有效协作的关键，需要遵守共同的标准和协议。

数据模型和格式

数据模型需要满足几个维度的考量：

确权：对数据的权利进行确权
溯源：对流通的数据能够追溯到其出生地或可信任源所需要的相关凭证和metadata
品控：能够反映数据质量、数据治理等方面的状态或凭证
权能/鉴权：数据各项权能能够单独或整体设置，并提供鉴证的方法
安全：保护数据安全采取的包括加密等措施
计量：能够依据数据的特性建立计量标准
交易：能够实现数据可控、可存证和可履行的价值交换活动
存储：定义数据存储的方式、位置以及相关的策略
其他：根据数据类别而自定义的其他维度

数据分类分级

按照分类分级标准可以划分为17大类，22个小类，以及1-5安全级别。参考《信息安全技术个人信息安全规范》 GB/T35273-2020

数据格式（doctype）

主要考虑机器可读、自动化处理和数据资产管理，满足W3C VCs的标准，可验证的数据格式。例如：JSON-LD。

个人数据格式还有待标准化。

数据交收协议

数据交收模式

按照交收参与者分类：

点对点交收
多对壹交收
多对多交收

按照隐私和安全分类：

数据可用可见交收
数据可用不可见交收
可信计算交收等

数据溯源和数据血缘

数据溯源（data provenance）

数据在整个生存周期内(从产生、传播到消亡)的演变信息和演变处理内容的记录。数据溯源也称为"数据族系"、"数据系谱"。ProVOC 模型（provenance vocabulary model）定义了一种简便数据溯源描述模型。

数据溯源参考模型

数据血缘（data lineage）

数据血缘属于数据治理中的一个概念，是在数据溯源的过程中找到相关数据之间的联系，了解数据是怎么来的，经过了哪些过程和阶段。

血缘分析是保证数据融合的一个手段，通过血缘分析实现数据融合处理的可追溯。数据血缘跟踪、记录、展示了数据来自何处，以及在数据流转过程中应用了哪些转换操作，它有助于追溯数据来源及处理过程。

数据血缘系统的核心功能：

数据资产的自动发现及创建
血缘关系的自动发现及创建
不同视角的血缘及资产分析展示

数据血缘的三个视角：

数据工程师：通常希望看到数据处理细节的血缘，例如数据处理过程中的mapping，de-duplicate，data masking，merge，join， update, delete, insert等诸如此类的操作，这样便于在数据出现问题的时候方便他们进行回溯分析定位。
业务用户：通常希望看到数据从哪里来，经过了那些关键的处理环节，每个处理环节是谁来负责，他们通常不关心诸如merge，join等非常技术细节的操作。
数据交易：交易标的的数据资产经过哪些环节，和哪些数据进行了融合，以及什么方式进行的融合等。这样便于了解数据的价值构成。

DL2层：数据资本形成基础设施

DL2层负责构建自治、动态、虚拟和分布式的个人数据合作组织，实现数据价值的释放和资本形成。

隐私保护

确保个人数据在开发利用过程中的隐私安全。

安全

保障数据在存储、传输和处理过程中的安全性。

经济

构建数据价值评估、交易和分配的经济模型。

关键问题

DL2层需要解决的一个特别重要的问题是：可信的数据、可信的算法、可负担的算力。

对于交易双方而言，产生价值依赖于"数据、算法和算力"的综合作用，缺一不可。这其中有大量的技术以及法律、制度、标准和规范等。

具体实现可能有多种形态。参考架构仅提出一些原则和一个示范性实施实例，并不具体指定和要求。

实现示例：数悦坊

一笔业务的步骤描述如下：

自然人\(\mathcal{A}\)的个人数据空间记为\(\mathbb{D}_{\mathcal{A}}^{p,q}\)，其中\(p\),\(q\)为类别和安全级别
发起人（赞助人）\(\mathcal{S}\)是发起一项基于个人数据处理业务/需求的主体
\(\mathcal{S}\)拟定了一份数据开发利用提案，并通过「数悦坊」审核、验证后，正式发起招募
「数悦坊」是一个中介服务平台，为个人数据合作虚拟组织提供基础安全、可信的计算服务
「数悦坊」得到数量为\(N\)个自然人的同意后，与\(\mathcal{S}\)签署"智能合约"\(\mathcal{C}\)。智能合约详细的规定了算力资源要求、数据格式和规范以及使用期限、收益分配等等条款
「数悦坊」按照合约的要求，创建一个新的，与合约一对一对应的「数悦坊」
\(N\)个自然人的个人数据按照要求被replicated到「数悦坊-123」，发起人（赞助人）\(\mathcal{S}\)的算法也上传到「数悦坊」。计算完成后，「数悦坊-123」被kill
每个人自然人按照合约规定获得权益或收益

数据使用主要条款TS：{标准化合约}

不能复制和泄漏
隐私及权限设置在进入数悦坊前已经审核
期限：按合约
供给方式：1）批处理；2）Block；3）其他
记账/分润：按合约
其他条款

了解更多

深入了解PeopleData参考架构的其他组件和实现方案。

个人数据空间数据合作组织治理模型