T/31SCTA 003-2017 工业大数据平台技术规范 数据处理.pdf

T/31SCTA 003-2017 工业大数据平台技术规范 数据处理.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:11.4 M
标准类别:电力标准
资源ID:386710
下载资源

标准规范下载简介

T/31SCTA 003-2017 工业大数据平台技术规范 数据处理.pdf

ICS83.140.99 G40 登记号:T/31357310115F0972018

ICS83.140.99 G40 登记号:T/31357310115F0972018

T/31SCTA003—2017

工业大数据平台技术规范

DB/T 48-2012标准下载Technical specification for industrial big data platform Dataprocessing

C.4 常用术语 C.5 Spark运行模式… C.6Spark Cluster模式 C.7 RDD运行流程

用术语 oark运行模式.. 16 oarkCluster模式 17 DD运行流程 18

本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由上海市计算机行业协会提出并归口。 本标准起草单位:上海宝信软件股份有限公司、上海宝景信息技术发展有限公司、上海电子信息产 品再利用促进中心、上海庆科信息技术有限公司、上海金自天正信息技术有限公司、上海地铁电子科技 有限公司、上海理想信息产业(集团)有限公司、上海欧冶数据技术有限责任公司、上海市标准化协会、上 每宝能信息科技有限公司、上海浦东软件平台有限公司、中国电子科技集团公司第三十二研究所、上海 思普信息技术有限公司、上海产业技术研究院、上海可鲁系统软件有限公司、上海市计算机行业协会、上 每顶逸信息科技有限公司。 本标准主要起草人:滕逸龙、宋健海、董文生、吴德中、沈春锋、邵卫军、王永虹、林苑、李镇宁、 吴毅平、孙建淮、王会芝、王克勤、沈建华、范昀、罗渝平、严祖丹、李茂华、许六一、冯为民、沈华红、 李家宏、裘维东、孙伟国、黄钰梅、谢彬、吴俊伟、刘涛、郭烨、周晓婷、叶天琦、刘丽、覃宏昆、吴疆、谢玉彬、 朱彭生、钟寅超。

工业大数据平台技术规范

工业大数据平台技术规范 数据处理

本标准规定了工业大数据中数据处理的术语和定义、数据处理的流式计算、分布式离线分析、分布 式在线分析、表达式计算的要求等。 本标准适用于工业大数据平台的设计、开发、选型和实施,可作为企业选择或评价工业大数据平台 时的评测依据。 本标准的使用者包括独立软件测试机构、工业大数据平台相关的软件产品开发组织、实施及咨询服 务机构等。与工业大数据平台开发有关的其他领域亦可参照使用。

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 牛。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 SJ/T11310一2005信息设备资源共享协同服务第1部分:基础协议 T/31SCTA001工业大数据平台技术规范数据采集接人 T/31SCTA002工业大数据平台技术规范数据存储

下列术语和定义适用于本文件。 3.1 表达式计算服务formulacalculationservice FCS 提供基于表达式配置解析的计算服务,具备强大的表达式解析引擎,可以灵活配置表达式计算调用 方式,并内置丰富的计算函数库。

下列术语和定义适用于本文件。 3.1 表达式计算服务 formulacalculationservice FCS 提供基于表达式配置解析的计算服务,具备强 方式,并内置丰富的计算函数库。

下列缩略语适用于本文件。 CNN:卷积神经网络(ConvolutionalNeuralNets) DBN:深度置信网(DeepBeliefNets)。

数据处理应包括流式计算、分布式离线分析、分布式在线分析和表达式计算分析等,以满足不同

景下的数据处理分析需求

流式计算应是一个分布式、高容错的实时流处理计算系统,可用于在线实时分析、在线机器学习、持 续计算、分布式远程调用和ETL等领域。

5.3分布式离线分析要求

分布式离线分析应采用Master/Slave架构,主要由Client、JobTracker、TaskTracker和Task等组 件组成,每个组件的功能要求如下: a)Client:用户编写的分布式离线分析程序通过Client提交到JobTracker端,同时用户可通过 Client提供的一些接口查看作业运行状态。在Hadoop内部用“作业”(Job)表示分布式离线 分析程序。一个分布式离线分析程序可对应若干个作业,而每个作业会被分解成若干个 Map/Reduce任务(Task); b)JobTracker:JobTracker实现资源监控和作业调度功能。JobTracker监控所有TaskTracker 与作业的运行状态,一旦发现异常情况后,则转移相应的任务至其他节点,同时JobTracker会 跟踪任务的执行进度、资源使用量等信息,并将这些信息传送至任务调度器(Task Scheduler),而任务调度器则会在资源出现空闲时,选择合适的任务使用这些资源。在 Hadoop中任务调度器是一个可插拔的组件,用户可以根据自已的需要设计相应的任务调 度器; c)TaskTracker:TaskTracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的 运行进度传给JobTracker,同时接收JobTracker发送过来的命令并执行相应的操作(如启动 新任务、关闭任务等)。TaskTracker使用"slot"等量划分本节点上的资源量。“slot"代表计算 资源(CPU、内存等)。一个Task获取到一个slot后才有机会运行,而任务调度器的作用就是

T/31SCTA 003—2017

将各个TaskTracker上的空闲slot分配给Task使用。slot分为Mapslot和Reduce slot两 种,分别供MapTask和ReduceTask使用。TaskTracker通过slot数目(可配置参数)限定 Task的并发度; d)Task:Task分为MapTask和ReduceTask两种,均由TaskTracker启动。HDFS以固定大 小的block为基本单位存储数据,而对于MapReduce而言,其处理单位是Split。Split是一个 逻辑概念,它只包含一些元数据信息,如数据起始位置、数据长度、数据所在节点等。它的划分 方法完全由用户自已决定。但Split的多少决定了MapTask的数目,因为每个Split只会交 给一个MapTask处理。

5.4分布式在线分析要求

分布式在线分析应基于Spark实现分布式在线分析任务的设计运行。

分布式在线分析应采用分布式计算中的Master/Slave架构。Master作为整个集群的控制器实现 整个集群的正常运行;Slave上运行的Worker相当于是计算节点,接收主节点命令与进行状态信息, park主要包括如下组件:ClusterManager、Worker、Driver、Excecutor、SparkContext、RDD、DAG cheduler、TaskScheduler和SparkEnv等。 分布式在线分析架构中应提供的基本组件如下: a)ClusterManager:在Standalone模式中即为Master(主节点),它控制整个集群,并监控 Worker。在YARN模式中为资源管理器; b)Worker:Slave(从节点)的功能为控制计算节点、启动Executor或Driver等。在YARN模式 中为NodeManager,功能为控制计算节点; C) 1 Driver:功能为控制一个应用的执行以及运行Application的main()函数并创建 SparkContext。Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发; 在执行阶段,Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机 器,同时Executor对相应数据分区的任务进行处理; d)Executor:执行器,负责任务的执行。它是在Workernode上执行任务的组件,用于启动工作 线程以运行任务。每个Application拥有独立的一组Executors; e)SparkContext:是整个应用的上下文,并控制应用的生命周期; f) RDD:是Spark的基本计算单元。一组RDD可形成执行的有向无环图RDDGraph; g)DAGScheduler:根据作业(Job)构建基于Stage的DAG,并提交Stage给TaskScheduler; h)TaskScheduler:将任务(Task)分发给Executor执行; i) SparkEnv:线程的运行环境设置,以存储线程在运行时对关键组件的引用。 分布式在线分析在任务执行的过程中和其他组件协同工作以确保整个应用的顺利执行。其任务执 行流程如下: a)Client提交应用; b)Master找到一个Worker启动Driver; c)Driver向Master或者资源管理器申请资源; d)将应用转化为RDDCraph:

a)Client提交应用; b)Master找到一个Worker启动Driver; c)Driver向Master或者资源管理器申请资源; d) 将应用转化为RDDGraph; e) 由DAGScheduler将RDDGraph转化为Stage的DAG,并提交给TaskScheduler;

TaskScheduler提交任务给E

FCS应基于Spark分布式计算技术,把海量结构化、半结构化信息处理技术和Hadoop架构进行有 效集成,实现基于OTS和PDS的面对过程数据和历史结构化数据的表达式计算服务。FCS应通过灵 活的触发调度规则、多种数学函数和统计函数、强大的并行任务调度控制,以帮助用户实现数据的价值 挖掘和效益增长。

FCS应提供基于触发器配置的定时和定周期两种触发方式的触发器调度机制,以满足不同调度需 要。触发规则应支持秒级的调度配置。单个触发器应可提供给不同的调度任务使用,并可以实时变更 调度任务的运行周期。具体触发规则应包括: a)定时触发。定时触发机制支持按指定日、月、年的具体触发时刻,可以精准控制调度任务的执 行时间; b)定周期触发。提供定周期的触发方式,并支持秒级触发

5.5.2.2计算任务

FCS应提供基于任务的表达式计算功能。在设置计算任务时,FCS应可以设定输入和输出方式、 内含多种函数和统计配置规则,具体功能应包括: a)基于PDS的过程统计功能。该功能输入过程数据(如工业现场设备产生的时序数据)框剪结构大模板安装与拆除施工工艺及技术规范,支持通 配符的时间配置规则,可灵活设置统计对象的输人范围和输出时间戳。FCS应支持PDS模板 配置功能,以节省繁琐重复的计算任务配置操作; b)灵活的操作选项。提供调度任务的实时启停、手动执行功能。手动执行功能可提供用户自定 义的时间输入,并可修正表达式计算的历史计算结果; c)多种统计运算函数。支持逻辑运算函数、三角/反三角函数、(含过滤条件的)最大/小值统计、 (含过滤条件的)均值统计、(含过滤条件的)求和统计、以及其他常用的数学函数,可实现复杂 的表达式计算任务

5.5.2.3多租户隔离

FCS应提供多租户隔离功能,每个租户可以创建专属的调度任务进行统计分析,不同租户的数 隔离的,不同租户之间的访问可通过权限进行访问控制

5.5.2.4Web管理功能

FCS提供的Web管理功能应包括: a)触发器管理。提供触发器的添加和删除功能,通过该功能可以快速配置触发器调度规则; b)任务管理。提供调度任务的创建和删除功能,支持不同的数据源配置以及复杂的表达式配置 功能; c) 1 历史查询功能。提供对任务执行结果的查询功能,可对任务计算结果和计算异常情况进行查 看和分析定位

机器学习(machinelearning)使用算法指导机器来解析和学习已知输入数据,构建出适当的模型, 然后利用这个模型对新的输人数据做出决策和预测。机器学习可以从海量数据(结构化和非结构化数 据)中抽取知识,提供数据洞察和决策。 机器学习是人工智能研究较为年轻的分支,它的发展过程大体上可分为4个时期。第一阶段是在 20世纪50年代中期到60年代中期,属于热烈时期。第二阶段是在20世纪60年代中期至70年代中 期,被称为机器学习的冷静时期。第三阶段是从20世纪70年代中期至80年代中期,称为复兴时期。 机器学习的最新阶段始于1986年。机器学习进人新阶段的重要表现在下列诸方面: a)机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生 理学以及数学、自动化和计算机科学形成机器学习理论基础; b)结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。特别是连接学习符 号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题而受到重视; c)机器学习与人工智能各种基础问题的统一性观点正在形成。例如学习与问题求解结合进行、 知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结 合的基于案例方法已成为经验学习的重要方向; d)各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断 分类型专家系统中广泛使用。连接学习在声图文识别中占优势。分析学习已用于设计综合型 专家系统。遗传算法与强化学习在工程控制中有较好的应用前景。与符号系统耦合的神经网 络连接学习将在企业的智能管理与智能机器人运动规划中发挥作用; e)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外,还有计算机 学习理论会议以及遗传算法会议。 机器学习已经有了十分广泛的应用《江西省海绵城市建设技术导则(试行)》.pdf,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜 索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器 人运用。

式维度进行分类,可以有:监督学习,无监督学习,

©版权声明
相关文章