GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf

GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:18.3 M
标准类别:电力标准
资源ID:219598
下载资源

标准规范下载简介

GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf

技术选型视角包括但不限于: a)理清数据产生频率,明确数据产生规律,确定数据更新周期和存储策略,确定数据存储平台配 型等存储资源分配方案; b)理清数据产生方式,分析数据的来源和质量,确定在整个数据处理流程中数据所处的位置,及 数据处理及存储技术; 分析数据的结构化特征,确定数据存储与处理方案; d)明确数据的存储方式,确定数据建模模型与数据的访问方式,支撑各类数据应用场景; e)理清数据稀疏稠密程度,明确数据稀疏稠密规律,确定数据存储策略和分析方法,选择数据存 储方案和分析方案; 明确数据处理时效性要求,明确数据处理时机,确定数据处理策略,选择包括计算平台和资源 匹配等的数据处理方案; g)理清数据交换方式,确定数据共享方式及策略,支撑构建信息交换体系

业务应用视角包括但不限于: a)理清数据产生来源,明确数据权属和访问权限,便于数据追踪溯源; b)明确数据应用场景,确定数据业务主题,判断数据应用价值,选择数据分析方案; )明确数据分发场景,确定数据应用行业,明确可用数据的种类和范围; d)理清数据质量情况,明确数据应用需求,确定数据质量管理方案。

TB/T 3199.2-2018 电气化铁路接触网用绝缘子 第2部分:棒形复合绝缘子6.4安全隐私保护视角

安全隐私保护视角包括但不限于: a)明确不同敏感程度的大数据在存储、传输、访问、分发时的安全要求; b)明确不同敏感程度的大数据的隐私保护要求; c)指导分类主体制定隐私保护方案; d)指导分类主体制定安全管理方案。

本章从技术选型 种视角给出不同的分类维度,以及用于描述 维度的分类要素、数据类别和适用场景。

技术选型 应用和安全 私保 种视角给出不同的分类维度,以及用于描述每种分类 要素、数据类别和适用场景

7.2.1按产生频率分类

按产生频率分类是指根据数据产生的频率(单位时间内产生的数据量或达到指定数据量 数据进行分类。

7.2.1.2分类要素

按产生频率分类的要素包括: a)数据产生周期,如秒、分、时、关、周、月、季度、半年、年等; b 单位周期中数据的产生量,可以以记录条数表示或者以数据占用空间表示,如百万条记录 万条记录、GB级数据、TB级数据等

生频率分类的要素包括: 数据产生周期,如秒、分、时、天、周、月、季度、半年、年等; 单位周期中数据的产生量,可以以记录条数表示或者以数据占用空间表示,如百万条记录、千 万条记录、GB级数据、TB级数据等。

按产生频率可分为:每年更新 更新数据、每日更新数据、每小时更新数 分钟更新数据、每秒更新数据、无更

7.2.1.4适用场景

7.2.2按产生方式分类

按产生方式分类是指按照数据的产生方式对数

7.2.2.2分类要素

按产生方式分类的要素包括: a)数据被获取或被采集的方式,如人工采集、通过信息系统采集等; b)数据被加工的程度,如原始数据、二次加工数据等。

按产生方式分类可包括:人工采集数据、信息系统产生数据、感知设备产生数据、原始数 工数据等。

7.2.2.4适用场景

7.2.3按结构化特征分类

7.2.3.2分类要素

按结构化特征分类的要素包括: a)是否有预定义的数据模型; b) 数据结构是否规则; c)数据长度是否规范; d)数据类型是否固定

按结构化特征分类的要素包括: 是否有预定义的数据模型; b) 数据结构是否规则; C) 数据长度是否规范; d)数据类型是否固定。

7.2.3.4适用场景

7.2.4按存储方式分类

按存储方式分类是指根据数据适合采用的数据存储方式对数据进行分类等

7.2.4.2分类要素

按存储方式分类的要素包括: a)数据建模适合采用的数据模型,如关系模型、文档模型、图模型等; b)数据访问使用的查询语言,如SQL、类SQL、图查询语言等。

按存储方式可划分为:关系数据库存储数据 数据库存循数据、列式数据库存循数据、图数据 者数据、文档数据库存储数据等

7.2.4.4适用场量

按接存储方式分类的适用场景,如选择数据存储采用的数据库系统、确定应用系统与数据存储系统之 间的数据访问方式等,

7.2.5按稀疏程度分类

疏程度分类是指根据数据的稀疏稠密程度对数

7.2.5.2分类要素

按稀疏程度分类的要素主 失或者为零的数据所 占比例。如空值或零值小于50%的数据 或等于50%的数据为稀疏数据。

接稀疏程度可划分为:稠密数据和稀疏数据。

7.2.5.4适用场量

7.2.6按处理时效性分类

时效性分类是指根据数据处理的时间延迟要求

7.2.6.2 分类要素

按处理时效性分类的要素包括: a)数据处理延迟时间要求,即应用场景是否对处理延迟时间有明确的上限要求; b)数据价值时效性,即数据应用价值随时间推移的有效性; c)数据处理量,即延迟上限时间内需处理多少量级的数据,

时效性可划分为:实时处理数据、准实时处理数

7.2.6.4适用场景

按处理时效性分类的适用场景,如根据数据时效要求安排业务顺序和资源

7.2.7按交换方式分类

7.2.7.2分类要素

按交换方式分类的要素包括: a)数据交换双方之间的网络状况,即交换双方之间的网络是否互通; b)数据在交换双方之间的同步实时性要求; c)单次交换的数据量; d)数据交换的频次,如固定频率交换、固定时间交换或按需交换等

7.2.7.4适用场量

7.3.1按产生来源分类

按产生来源分类是指根据数据产生的实际情景对数据进行分类

7.3.1.2 分类要素

按产生来源分类的要素包括: a)数据产生主体,如人工、机器、传感器、应用软件、信息系统等; b)数据权属,即数据所有权的归属

按产生来源可划分为:人为社交数据、电子商务平台交易数据、移动通信数据、物联网感知数据、系 统运行日志数据等。

7.3.1.4适用场景

按产生来源分类的适用场景,如根据数据来源确定数据归集策略、预测服务提供和数 价等,

主来源分类的适用场景,如根据数据来源确定数据归集策略、预测服务提供和数据交易定

7.3.2按业务归属分类

按业务归属分类是指根据数据所属的业务类型对数据进行

7.3.2.2分类要素

按业务归属分类的要素包括: a)分类主体的业务类型划分,如生产类业务、管理类业务、经营分析类业务; b)生成数据的业务所属的职能,如产品研发、市场营销、财务管理、人力管理等; c)生产数据的具体业务,如商品交易、会员注册、人才招聘等。

按业务归属分类的要素包括: a)分类主体的业务类型划分,如生产类业务、管理类业务、经营分析类业务; b)生成数据的业务所属的职能,如产品研发、市场营销、财务管理、人力管理等; c)生产数据的具体业务,如商品交易、会员注册、人才招聘等。

7.3.2.4适用场景

7.3.3按流通类型分类

通类型分类是指根据数据在流通交易过程中的

7.3.3.2分类要素

按流通类型分类的要素包括: a) 数据权责,即数据需求方可获取的数据权益,如所有权、经销权、使用权、可复制权等; b)计费方式,即数据供应方和数据需求方之间计算数据交易费用的方式,如按使用量计费、按使 用时长计费等; ) 交付内容,即数据供应方向数据需求方提供的数据内容,如原始数据集、数据分析报告等; d) 行业主题,即流通数据所属的行业领域,如农业、林业、医疗、交通、科研等; e) 敏感程度,即流通数据是否涉及国家秘密、行业秘密、企业秘密或个人隐私等,如公开数据、脱

按流通类型分类的要素包括: a) 数据权责,即数据需求方可获取的数据权益,如所有权、经销权、使用权、可复制权等; b)计费方式,即数据供应方和数据需求方之间计算数据交易费用的方式,如按使用量计费、按使 用时长计费等; c)交付内容,即数据供应方向数据需求方提供的数据内容,如原始数据集、数据分析报告等; d) 行业主题,即流通数据所属的行业领域,如农业、林业、医疗、交通、科研等; e 敏感程度,即流通数据是否涉及国家秘密、行业秘密、企业秘密或个人隐私等,如公开数据、脱

敏数据、涉密数据等。

按流通类型可划分为:可直接交易数据、间接交易数据、不可交易数据等

7.3.3.4适用场最

7.3.4按行业领域分类

领域分类是指根据数据内容所属的行业领域范

7.3.4.2分类要素

按行业领域分类的要素包括: a)数据产生行业,即产生数据的活动所属的国民经济行业; b)数据应用行业,即分析和使用数据的活动所属的国民经济行业。

7.3.4.4适用场景

按行业领域分类的适用场景,如公安、气象、水文等行业大数据分析等。

7.3.5按数据质量分类

居质量分类是指根据数据的质量差异对数据进行

7.3.5.2分类要素

按数据质量分类的要素包括: a) 数据的准确性,即数据是否存在异常、错误或过时; 数据的完整性,即数据是否存在缺失及缺失程度 数据的一致性,即数据内容是否遵循统一规范; d)数据的及时性,即所需数据是否及时到达目标应用; e)数据的重复性,即是否存在大量重复数据。

按数据质量可划分为:高质量数据、普通质量数据、低质量数

7.3.5.4适用场量

按数据质量分类的适用场景,如根据不同数据质量的比例确定数据利用的价值和数据质量管 作难易程度等,

7.4安全隐私保护维度

安全隐私保护维度分类是根据数据内容敏感程度

按安全隐私保护维度分类的要素包括: a)数据的敏感性,即数据本身或其衍生数据是否涉及国家秘密、企业秘密或个人隐私; b) 数据的保密性,即数据可被知悉的范围; 数据的重要性,即数据未经授权披露、丢失、滥用、篡改或销毁后对国家安全、企业利益或公民 权益的危害程度。

按数据安全隐私保护维度可划分为:高敏感数据、低敏感数据、不敏感数据等。

按安全隐私保护维度分类的适用场景,如根据数据内容敏感程度确定大数据应用边界、数据保护策 略、数据脱敏方案等。

每个层级分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成兼属关 系。同层级类别互不重复,互不交叉。 线分类法适用于针对一个类别只选取单一分类维度进行分类的场景

8.1.2确定分类类别之间关系

采用线分类法确定分类类别之间关系的过程包括 a)确定一个分类维度; b)确定该分类维度的分类类别; 针对每一个分类类别:如果该分类类别不需要再进一步划分子类,则转d)步,否则确定该分类 类别进行子类划分的分类维度,转b)步; d)所有分类类别均不需进一步划分,则分类类别之间关系确定。 注:上述过程完成后,将形成一棵分类类别关系树。树的叶节点为最终的分类项,通常称为基本类别;其余节点为 中间类别。

线分类法的特点包括: a)层次性好,能较好地反映类别之间的逻辑关系; b)实用方便,便于机器处理信息;

c)结构弹性较差,分类结构一经确定,不易改动; d)效率较低,当分类层次较多时,影响数据处理速度

面分类法是将所选定的分类对象(即本标准界定的数据),依据其本身的固有的各种属性或特征,分 成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。将某个面中的一种类别和另 外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。 面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取 多个分类维度进行分类的场景。

8.2.2确定分类类别之间关系

采用面分类法确定分类类别之间关系的过程包括: a)确定分类对象的若干个特征面,即分类维度,每一个分类维度构成一个分类面。 b)确定分类面的排列顺序,应当按照分类维度的重要性或使用频率的高低由左向右进行排列。 ) 划分每一个分类维度的分类类别。为每一个分类维度确定一个分类规则,并接此规则划分各 个分类维度的分类类别。 d)通过上述步骤所得到的各个面的类别将分类对象划分成了若于个对象类。

面分类法的特点包括: a) 弹性较大,一个“面”内类别的改变,不会影响其他的“面”; b)适应性强,可根据需要组成任何类别; c)易于添加和修改类别; d) 可组配的类别很多,但实际应用的类别不多。

混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得到更为合理的分 类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。混合分类法适用于以一个分类维 度划分大类、另一个分类维度划分小类的场景。

混合分类法的优点包括: a)可以根据实际需要,对两种分类方法进行灵活的配置,吸取两种分类方法的优点; b)适应一些综合性较强、属性或者特征不是士分明确的数据分类。

A.1业务场景和分类视

根据本标准中提出的分类过程、分类视角、分类维度和分类方法,以铁路大数据为例,进行大数据分 类实践和验证。 铁路大数据涵盖铁路勘测设计、建设和运营等各阶段,在铁路数据目录梳理、铁路数据交换共享、铁 路数据建模分析、铁路数据安全保护等铁路大数据管理场景下均需对铁路大数据进行分类。 对铁路大数据进行分类的视角是规范国铁集团、铁路局两级数据管理的相关标准,同时规范铁路数 据与外部数据交换共享的类型等

A.2分类范围、分类维度和分类方法

铁路大数据分类范围包括由铁路客运、物流、基础设施、移动设备、工程建设、资产经营、企业管理 失路业务领域的结构化、非结构化数据所汇集而成的数据集合。 分类维度选择按结构化特征分类、按产生来源分类、按产生频率分类、按业务归属分类。 分类方法采用以线分类法为主、面分类法为辅的混合分类法。

合肥市民用建筑楼面保温隔声工程技术要求(合肥市城乡建设委员会2018年12月)A.3分类实施和分类结果

在进行铁路大数据分类实施时,考虑到铁路大数据的多源性和异构性等特点,首先,采用线分类法, 择按结构化特征、按业务归属、按产生来源和按产生频率等维度对铁路大数据进行大类划分;其次,针 具体的某一大类数据,采用面分类法,选择按产生来源、使用标记等维度进行小类划分。 具体分类过程如下: a)第一级分类: 1)按结构化特征分类,将铁路大数据分为结构化数据和非结构化数据两大类。 b)第二级分类: 1)针对结构化数据,按业务归属分类,分为主数据、事务数据和分析数据; 2)针对非结构化数据,按产生来源分类,分为文本数据和多媒体数据。 c) 第三级分类: 1)针对事务数据,按产生频率分类,分为实时数据和非实时数据; 2)针对文本数据,按业务归属分类,分为法律数据、制度数据、办公数据、事务数据。 d) 第四级分类: 1)针对第三级分类结果和部分第二级分类结果,进一步按业务归属分类,形成第四级分类。 分类结果如图A.1所示,

在进行铁路大数据分类实施时,考虑到铁路大数据的多源性和异构性等特点,首先,采用线分类 按结构化特征、按业务归属、按产生来源和按产生频率等维度对铁路大数据进行大类划分;其次 其体的某一大类数据,采用面分类法,选择按产生来源、使用标记等维度进行小类划分。 具体分类过程如下

图A.1铁路大数据线分类方法示例

经过四级线分类法已将铁路大数据划分到具体业务层面,而根据实际应用需求,需采用面分类法将 数据进行进一步地细分。主数据中的固定设施类数据按业务归属分类(见图A.2实线箭头),可分为车 站主数据和专用线主数据,以专用线主数据为例,介绍面分类过程。 针对专用线主数据,可分别按产生来源和使用标记这两个“面”进行分类,如图A.2虚线箭头所示: a)按产生来源分类,即根据产生数据的专用线对数据进行分类,分类实例如客运专用线主数据 货运专用线主数据等; b 按使用标记分类,即根据数据使用标记对数据进行分类,分类实例如A类主数据、B类主数 据、C类主数据等。 固定设施类主数据的面分类结果如图A.2所示,

GB/T 42210-2022 液晶显示屏用点对点(P2P)信号接口 电参数图A.2铁路大数据面分类示例

©版权声明
相关文章