国工数据大脑之变量聚类与国工销售预测系统的融合应用
根据不同变量之间相关程度高低进行分类。研究中,若变量较多且相关较强时,可以使用变量聚类法把变量聚为几个大类,同一类变量之间有较强相关性,不同类变量之间相关程度低,并可以从同类变量中找出一典型性变量作为代表,最终减少变量个数达到降维目的。
有10种500毫升啤酒的成分和价格等数据,试用变量聚类对变量进行聚类以达到缩减变量的目的,筛选出预测变量。数据的变量包括热量、钠含量、酒精含量、价格、麦芽浓度。
分析过程
从数据大脑中的组件面板查找变量聚类组件,拖到到工作面板,配置数据源以及变量聚类组件参数,点击运行。
如何筛选聚类变量?现在我们有5个变量用来对啤酒分类,是否有必要将5个变量都纳入作为分类变量呢?热量、钠含量、酒精含量,麦芽浓度这4个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本,如果都纳入分析的话,岂不太麻烦太浪费?所以,有必要对5个变量进行聚类处理。
从结果树状图中可以看出酒精含量与麦芽浓度两个变量距离为0.0683,二者之间相关系数最大(相关系数等于1 - 距离)选其一即可,没有必要都作为预测变量,导致成本增加。至于酒精含量和麦芽浓度选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于预测的变量为:酒精含量,钠含量,热量,价格。
变量聚类可以用来:分析特征相关性 ,对指标进行分类等。