GOGETTER
案例与数据:
面对市场竞争的日益激烈,制造企业想要得到客户的认可,不得不从价格优势转向高质量的产品优势。产品质量的高低已经关系到企业核心竞争力的重要一环。如何有效地管理和利用这些从企业生产和经营中产生的庞杂的质量数据,是企业迫切需要解决的问题。 将数据挖掘技术应用于生产过程质量管理中,挖掘出生产过程中影响质量的关键因素及其内在联系,有针对性地采取预防措施,从而提高产品质量,为企业持续改善质量提供决策支持。 某企业生产加工数据与质量检验数据,目前已积累了上百万条,想从上百万条数据中寻找质量问题规律已经超出了人脑的处理能力,用数据大脑可以自动从海量数据中寻找规律并直接呈现。我们主要选择批次号、生产设备、操作员、班组、检验员和检验结果。处理后的部分样本数据如下图所示: 分析过程: 我们使用数据大脑系统,对数据进行读取,筛选和去重,最后导入C45分类器进行分析。需要对算法组件的相关参数进行配置,如下图,训练字段需要填写目标字段,配置参数使用默认参数,设置打开评估器和保存模型。 模型应用: 我们通过流程生成的模型保存下来,可以在以后的生产作业中,对员工的绩效进行评测,让适合的人在适合的工作时间进行作业。这样子可以提高人员的工作积极性,降低员工离职率,减少产品不合格率,提升生产能力,增加公司收益。 分析结果: 通过C45分类器生成算法评估器,展示该类数据在此算法的评估指标。Kappa值即内部一致性系数,是作为评价判断的一致性程度的重要指标。取值在0~1之间。Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者一致性一般;Kappa<0.4两者一致性较差。 平均绝对误差和均方根误差,用来衡量分类器预测值和实际结果的差异,越小越好。相对绝对误差和相对均方根误差,有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值的比重来反映误差大小。 精确率即在检索后返回的结果中,真正正确的个数占整个结果的比例。召回率即在检索结果中真正正确的个数 占整个数据集(检索到的和未检索到的)中真正正确个数的比例。recall = TP/(TP+FN)即,检索结果中,你判断为正的样本也确实为正的,以及那些没在检索结果中被你判断为负但是事实上是正的(FN)。 MCC马修斯相关系数是应用在机器学习中,用以测量二分类的分类性能的指标。该指标考虑了真阳性、真阴性和假阳性和假阴性,通常认为该指标是一个比较均衡的指标,即使是在两类别的样本含量差别很大时,也可以应用它。MCC本质上是一个描述实际分类与预测分类之间的相关系数,它的取值范围为,取值为1时表示对受试对象的完美预测,取值为0时表示预测的结果还不如随机预测的结果,-1是指预测分类和实际分类完全不一致。 ROC代表计算出ROC曲线下面的面积,就是AUC的值。介于0.5和1.0之间,越大越好。PRC比ROC能更有效地反应分类器的好坏。 决策树 通过C45决策树分析该数据集的结果如上图所示,该分析得出结果: 1、在多种因素中分析出“操作员”对检测结果影响最大。 2、当操作员”CZ30001”在”夜班”使用设备”SB001”进行作业时,”不合格”数量居多,故得出该员工不适合夜班作业。 此时数据大脑可以与国工智能MES平台联动,在下达工单时自动提醒用户本批次生产的质量风险点,告知用户操作员存在不合格可能从而提升产品合格率,将问题杜绝在发生之前。 C4.5算法定义 C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。 在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting),如果不考虑这些结点可能会更好, 能够对不完整数据进行处理,对非离散数据也能处理。 应用领域 目前应用于临床决策、生产制造、文档分析、生物信息学、空间数据建模等领域。