设为首页 | 加入收藏 | ENGLISH
首页关于我们科研机构科研团队科研平台研究项目人才培养技术转化招聘公告
当前位置: 首页>>科研平台>>正文

智能制造大数据服务平台

时间:[2018-01-02]  来源:

一、概述

基于工业物联网的智能制造大数据平台是广州大学智能制造工程研究院信息化基础设施建设规划中的一个重要组成部分。以高性能的基础硬件以及强大的spark大数据框架为支撑,平台将实现支持用户对数据从采集到应用的完整工作流程。平台具有高度的普适性,在通用的架构上配合具体项目所需的个性化软硬件,将能服务不同行业的用户。

二、平台系统层次设计


图1 平台系统层次设计

图1展示了平台在系统层次设计。平台通过运行在单独的服务器上的云操作系统对服务器、存储、网络等资源进行虚拟化 管理,提供可以自定义的虚拟机,在虚拟机上安装Hadoop、hbase等Nosql分布式数据库集群, 对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行业务 应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩展性。

平台可以自动管理和动态分配、部署、配置、重新配置以及回收资源,也可以自动安装 软件和应用,具有良好的弹性和灵活性,管理、使用方便。云中心可以向用户提供虚拟基础 架构。用户可以自己定义虚拟基础架构的构成,如服务器配置、数量、存储类型和大小等等。 用户通过自服务界面提交请求,每个请求的生命周期由平台维护。

平台包括IaaS、PaaS、SaaS三层服务:

1)SaaS:提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。消费者不需要管理或控制任何云计算基础设施,包括网络、服务器、操作系统、存储等等。

2)PaaS:提供给消费者的服务是把客户采用的开发语言和工具(例如Java、python、.Net等)开发或收购的应用程序部署到供应商的云计算基础设施上去。客户不需要管理或控制底层的云基础设施,包括网络、服务器、操作系统、存储等,但客户能控制部 署的应用程序,也可控制运行应用程序的托管环境配置;可以使用docker容器完成应用系统的部署和管理。

3)IaaS:提供给消费者的服务是对所有计算基础设施的利用,包括处理CPU、内存、存 储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。消费者不管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也能获得有限制的网络组件(例如路由器、防火墙、负载均衡器等)的控制。

平台采用xen、kvm、VMware进行虚拟化,LXC(linux container)提供Linux容器,支持docker应用容器。

三、平台大数据处理框架设计


图2 平台系统层次设计

图2展示了平台的大数据处理框架的设计。以材料基因工程项目为例,红色框指代项目的个性化订制(基础资源,大数据应用…),其余部分为平台的通用架构。通过在虚拟机上安装Hadoop、HBase等NoSQL数据库集群,用sqoop把现有的数据汇总进来,要对现有数据做个总的分析,对字段统一定义规划,制定转换策略,做到正确性、唯 一性、可用性,去除重复字段,通过ETL抽取、清洗数据,把数据导入HBase,这样就可以消除信息孤岛,用spark等大数据处理软件对HBase中的数据进行分析处理,挖掘数据价值。

平台通过调度系统自动采集、加工、存储数据,为应用系统提供支持:

1)HDFS文件系统,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost) 硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

2)YARN是一套资源统一管理和调度平台,可管理各种计算框架,包括MapReduce,Spark,MPI等。包括以下内容:

ResourceManager(RM):整个系统只有一个RM,它就只管调度方面的事情,并且为集群应用而优化,因而具有很好的性能。RM的一个核心是它的Scheduler。调度包含两个过程,一要搜集各节点的情况;二要根据某种调度策略,分配合适的节点。搜集节点情况是基于一个资源容器(resource container)的概念,该容器包括cpu、disk、network等(目前只用到cpu)。

NodeManager(NM):NM是每个节点一个实例,管理每个节点,它触发应用容器(application container),监控节点的资源(cpu/disk等),并向RM报告资源的情况。

ApplicationMaster(AM):AM是每个应用一个实例,它是一个特定的框架接口库,一方面与RM中的Scheduler协商得到resource container,另一方面与NM一起执行和监控各子任务部件,从系统的角度,AM本身也一种container。

Container:从逻辑上,container可认为是资源的分配容器,它包括hostname、cpu、memory等属性。AM发送ResourceRequest给RM,然后RM分配合适的Container给AM,AM再将此Container提交给它所在节点的NM,NM采用此资源容器运行任务。实际上,Container是一种使用资源的“授权”,AM得到此授权后,在NM的管理下,可以运行任何进程。

总的来说,平台部署了大数据处理的基本组件。在数据采集层上,Sqoop作为数据交换系统处理各类结构化与非结构化数据。而HDFS、YARN、Ambari、Oozie、Zookeeper和NoSQL则在数据储存与管理层上负责对文件和数据进行管理、储存和调度。在应用支撑与应用层上,平台提供以下组件:用于数据挖掘、报表服务等功能的一系列Business Intelligent工具, 分布式内存计算框架spark,机器学习算法库和深度学习框架Mlib、TensorFlow,流处理工具spark Streaming,图计算工具spark GraphX,图形化数据管理平台spark Notebook以及大数据分析查询系统sparkSQL。所有这些都将预先部署好,大幅简化用户的集群配置/安装及运维步骤。用户可以方便地在平台进行资源服务管理、计费管理、维护管理和运行监控等运营任务。利用平台自带的应用支撑结合客户需要的个性化软件,客户可以实现行业所需的大数据应用,例如图中材料基因工程项目则可进行材料性能分析、新材料研发、行业分析、工作流生成等任务。

四、平台与智能制造工程研究院

广州大学智能制造工程研究院拥有高性能的硬件设备,其结合前沿的大数据技术打造的基于工业物联网的智能制造大数据平台具有优越的性能,轻量且集中的管理。平台极大简化了客户的部署步骤,同时允许企业根据大数据分析应用的扩建方便的对基础架构进行扩展,进而创造更强大的数据处理平台。

上一条:智能机器人研发平台

下一条:"人工智能+智能制造+网络空间技术"大数据中心