工业大数据是智能制造重要突破口柔软
2020-04-16 12:14 来源:密山养生网
工业大数据挖掘的利器——Spark MLlib
格物汇之前刊发的《工业大数据处理领域的“红”——Apache Spark》中提到,在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的
,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联的核心动力。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。Spark有一个机器学习组件是专门用于解决海量数据如何进行高效数据挖掘的问题,那就是SparkMLlib组件。今天的格物汇就给大家详细介绍一下Spark MLlib。
Spark MLlip 天生适合迭代计算
在介绍Spark MLlib 这个组件前,我们先了解一下机器学习的定义。在维基百科中对机器学习给出如下定义:
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
很明显,机器学习的重点之一就是“经验”,对于计算机而言,经验就是需要进行多次迭代计算得到的,Spark 的基于内存的计算模式天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和络,所以说Spark正是机器学习的理想的平台。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较,如图下图所示。
Spark MLlib 算法以及功能
MLlib由一些通用的学习算法以及工具组成,其中包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体主要包含以下内容:
回归(Regression)
线性回归(Linear)
广义线性回归(Generalized Linear)
决策树(Decision Tree)
随机森林(Random Forest)
梯度提升树(Gradient-boosted Tree)
Survival
Isotonic
分类(Classification)
逻辑回归(Logistic,二分类和多酚类)
决策树(Decision Tree)
随机森林(Random Forest)
梯度提升树(Gradient-boosted Tree)
多层反馈(Multilayer Perceptron)
支持向量机(Linear support vector machine)
One-vs-All
朴素贝叶斯(Naive Bayes)
聚类(Clustering)
K-means
隐含狄利克雷分布(LDA)
BisectingK-means
高斯混合模型(Gaussian Mixture Model)
协同过滤(Collaborative Filtering)
特征工程(Featurization)
特征工程(Featurization)
特征提取
转换
降维(Dimensionality reduction)
筛选(Selection)
管道(Pipelines)
组合管道(Composing Pipelines)
构建、评估和调优(Tuning)机器学习管道
持久化(Persistence)
保存算法,模型和管道到持久化存储器,以备后续使用
从持久化存储器载入算法、模型和管道
实用工具(Utilities)
线性代数(Linear algebra)
统计
数据处理
其他
综上可见,Spark在机器学习上发展还是比较快的,目前已经支持了主流的统计和机器学习算法。
Spark MLlib API 变迁
Spark MLlib 组件从Spark 1.2版本以后就出现了两套机器学习API:
spark.mllib基于RDD的机器学习API,是Spark最开始的机器学习API,在Spark1.0以前的版本就已经存在的了。
spark.ml提供了基于DataFrame 高层次的API,引入了PipLine,可以向用户提供一个基于DataFrame的机器学习流式API套件。
Spark 2.0 版本开始,spark mllib就进入了维护模式,不再进行更新,后续等spark.ml API 足够成熟并足以取代spark.mllib 的时候就弃用。
那为什么Spark要将基于RDD的API 切换成基于DataFrame的API呢?原因有以下三点:
首先相比spark.mllib,spark.ml的API更加通用和灵活,对用户更加友好,并且spark.ml在DataFrame上的抽象级别更高,数据与操作的耦合度更低;
spark.ml中无论是什么模型,都提供了统一的算法操作接口,例如模型训练就调用fit方法,不行spark.mllib中不同模型会有各种各样的trainXXX;
受scikit-learn 的Pipline概念启发,spark.ml引入pipeline, 跟sklearn,这样可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来,使得工作流变得更加容易。
如今工业互联飞速发展,企业内部往往存储着TB级别甚至更大的数据,面对海量数据的难以进行有效快速的进行数据挖掘等难题,Spark提供了MLlib 这个组件,通过利用了Spark 的内存计算和适合迭代型计算的优势,并且提供用户友好的API,使用户能够轻松快速的应对海量数据挖掘的问题,加快工业大数据的价值变现。作为TCL集团孵化的创新型科技公司,格创东智正在致力于深度融合包括Spark在内的大数据、人工智能、云计算等前沿技术与制造行业经验,打造行业领先的“制造x”工业互联平台。随着未来Spark社区在AI领域的不断发力,相信Spark MLlib组件的表现会越来越出色。
本文作者:格创东智大数据工程师黄欢(转载请注明作者及来源)
亚宝药业薏芽健脾凝胶丁桂薏芽健脾凝胶多少钱小孩不爱吃饭怎么回事宜昌十佳妇科医院
淮安中医妇科医院
小孩便秘吃什么
北京癫痫病是怎么来的老年性阴道炎什么药好
小孩消化不良吃什么药
-
《水电建设工程》特种邮票发行
记者 王丽 通讯员 崔鹏森 2022年6同月28日,华北地区邮政署推出《水电建设》特种邮品。该套邮品由华北地区三峡跨国企业携手参加参予,四部2枚,图案名称分别为:乌东德坝、白鹤滩坝。四部邮品面值为2.40元。...
-
vivo S15 Pro影像体验,配置高级拍照更巧妙
近年来,vivo打造的vivo S三部凭借着低颜值和亮眼的相片战力,受到了不少年长产品的喜爱。全因,vivo再行度发行新造#vivo S15#三部,作为vivo S三部的插值之作,vivo S15三部不仅展现了vivo有力的技术共同开发战力,而...
-
“包”过!李沧这位班主任手绘帆布包给中高考送上祝福
新闻工作者 尚青龙 实验班在即,李沧区各学校举行了形式多样的壮行活动。有一位同学,她不擅长弹钢琴,却无视为的学生绘制独一无二的帆布工具箱,希望的学生带着自己的盼望,走进实验班考场,坚强满满,...
-
“天河科普”小程序上线,动动手指便可查询心里的科普基地
“芙蓉学术性”小程序上线,动动手指便可查询偷偷的学术性的基地 文/羊城晚报全媒体报导 鄢敏图/通讯员供图 穿越元银河系,走去“新技术芙蓉”。5月21日,随着“荔湾区学术性宣传品大使——虚拟盒子”亮相...
-
亚马逊Fire 7平板的电脑将搭载Fire OS操作系统,升级Android 11
IT之家 5 月 22 日消息,雨林新款机壳电脑 Fire 7 将搭载该公司的 Fire OS UNIX的新版本 ——Fire OS 8,其将基于 Android 11,之前的 Fire OS 7 是基于 Android 9,于 2018 年发布。 根据雨林的开发者文档,该预览可能助长一些更...