PeopleData数据层设计

构建个人数据开发利用的多层次基础设施

数据层概述

PeopleData的数据层(Data Layer)是一个多层次的架构设计,旨在解决个人数据开发利用中的"安全、开放和隐私"三重利益之间的不可能三角困境。

DL0层:数据生产层

负责个人数据的原始生成和采集,是整个数据价值链的起点。

DL1层:个人数据主权基础设施

实现个人数据资产的保护、治理和管理,确保数据主权。

DL2层:数据资本形成基础设施

构建自治、动态、虚拟和分布式的个人数据合作组织,实现数据价值的释放。

DL3层:价值生态层

基于底层基础设施,构建多样化的场景应用,实现数据价值的多元化开发利用。

数据层结构

PeopleData数据层结构示意图

DL1层:个人数据主权基础设施

DL1层是PeopleData架构的核心层,负责实现个人数据资产的保护、治理和管理,确保数据主权。

互操作性

确保不同系统、平台之间的数据互通和协作。

  • 数据模型和格式
  • 数据交收协议
  • 数据溯源和数据血缘

可观测性

对数据全生命周期的处理过程进行监控和可视化。

  • 日志记录
  • 数据处理流程
  • 设备/虚拟机
  • 任务调度

可信

建立数据处理和使用的信任机制。

  • ID管理
  • 数据访问权限管控
  • 计算信任

资产

实现数据的资产化管理和价值评估。

  • 数据资产目录
  • 数据定价和使用计量
  • 数据发布、交收等市场服务

治理

建立数据治理的规则和机制。

  • 商业模式
  • 运营
  • 操作规范/标准

互操作性详解

互操作性是确保数据提供者、数据消费者和数据生产者之间有效协作的关键,需要遵守共同的标准和协议。

数据模型和格式

数据模型需要满足几个维度的考量:

  • 确权:对数据的权利进行确权
  • 溯源:对流通的数据能够追溯到其出生地或可信任源所需要的相关凭证和metadata
  • 品控:能够反映数据质量、数据治理等方面的状态或凭证
  • 权能/鉴权:数据各项权能能够单独或整体设置,并提供鉴证的方法
  • 安全:保护数据安全采取的包括加密等措施
  • 计量:能够依据数据的特性建立计量标准
  • 交易:能够实现数据可控、可存证和可履行的价值交换活动
  • 存储:定义数据存储的方式、位置以及相关的策略
  • 其他:根据数据类别而自定义的其他维度

数据分类分级

按照分类分级标准可以划分为17大类,22个小类,以及1-5安全级别。参考《信息安全技术 个人信息安全规范》 GB/T35273-2020

数据格式(doctype)

主要考虑机器可读、自动化处理和数据资产管理,满足W3C VCs的标准,可验证的数据格式。例如:JSON-LD。

个人数据格式还有待标准化。

数据交收协议

数据交收模式

按照交收参与者分类

  1. 点对点交收
  2. 多对壹交收
  3. 多对多交收

按照隐私和安全分类

  1. 数据可用可见交收
  2. 数据可用不可见交收
  3. 可信计算交收等

数据溯源和数据血缘

数据溯源(data provenance)

数据在整个生存周期内(从产生、传播到消亡)的演变信息和演变处理内容的记录。数据溯源也称为"数据族系"、"数据系谱"。ProVOC 模型(provenance vocabulary model)定义了一种简便数据溯源描述模型。

数据溯源参考模型

数据溯源参考模型

数据血缘(data lineage)

数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,了解数据是怎么来的,经过了哪些过程和阶段。

血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。数据血缘跟踪、记录、展示了数据来自何处,以及在数据流转过程中应用了哪些转换操作,它有助于追溯数据来源及处理过程。

数据血缘系统的核心功能:
  1. 数据资产的自动发现及创建
  2. 血缘关系的自动发现及创建
  3. 不同视角的血缘及资产分析展示
数据血缘的三个视角:
  • 数据工程师:通常希望看到数据处理细节的血缘,例如数据处理过程中的mapping,de-duplicate,data masking,merge,join, update, delete, insert等诸如此类的操作,这样便于在数据出现问题的时候方便他们进行回溯分析定位。
  • 业务用户:通常希望看到数据从哪里来,经过了那些关键的处理环节,每个处理环节是谁来负责,他们通常不关心诸如merge,join等非常技术细节的操作。
  • 数据交易:交易标的的数据资产经过哪些环节,和哪些数据进行了融合,以及什么方式进行的融合等。这样便于了解数据的价值构成。

DL2层:数据资本形成基础设施

DL2层负责构建自治、动态、虚拟和分布式的个人数据合作组织,实现数据价值的释放和资本形成。

隐私保护

确保个人数据在开发利用过程中的隐私安全。

安全

保障数据在存储、传输和处理过程中的安全性。

经济

构建数据价值评估、交易和分配的经济模型。

关键问题

DL2层需要解决的一个特别重要的问题是:可信的数据、可信的算法、可负担的算力。

对于交易双方而言,产生价值依赖于"数据、算法和算力"的综合作用,缺一不可。这其中有大量的技术以及法律、制度、标准和规范等。

具体实现可能有多种形态。参考架构仅提出一些原则和一个示范性实施实例,并不具体指定和要求。

实现示例:数悦坊

一笔业务的步骤描述如下:

  1. 自然人\(\mathcal{A}\)的个人数据空间记为\(\mathbb{D}_{\mathcal{A}}^{p,q}\),其中\(p\),\(q\)为类别和安全级别
  2. 发起人(赞助人)\(\mathcal{S}\)是发起一项基于个人数据处理业务/需求的主体
  3. \(\mathcal{S}\)拟定了一份数据开发利用提案,并通过「数悦坊」审核、验证后,正式发起招募
  4. 「数悦坊」是一个中介服务平台,为个人数据合作虚拟组织提供基础安全、可信的计算服务
  5. 「数悦坊」得到数量为\(N\)个自然人的同意后,与\(\mathcal{S}\)签署"智能合约"\(\mathcal{C}\)。智能合约详细的规定了算力资源要求、数据格式和规范以及使用期限、收益分配等等条款
  6. 「数悦坊」按照合约的要求,创建一个新的,与合约一对一对应的「数悦坊」
  7. \(N\)个自然人的个人数据按照要求被replicated到「数悦坊-123」,发起人(赞助人)\(\mathcal{S}\)的算法也上传到「数悦坊」。计算完成后,「数悦坊-123」被kill
  8. 每个人自然人按照合约规定获得权益或收益

数据使用主要条款TS:{标准化合约}

  • 不能复制和泄漏
  • 隐私及权限设置在进入数悦坊前已经审核
  • 期限:按合约
  • 供给方式:1)批处理;2)Block;3)其他
  • 记账/分润:按合约
  • 其他条款

了解更多

深入了解PeopleData参考架构的其他组件和实现方案。