科技横飞的时代,大部分实验室管理系统(LIMS)都拥有数十上百的分析仪器设备,一台仪器检测数十个项目,实验室的温度、湿度、压强与实验结果的相关性越来越受人们的关注。国工智能实验室管理系统融合了国工智能数据大脑平台,平台内提供上百中统计学相关算法及机器学习算法,对实验室的数据进行分析、挖掘,提高企业产品附加值及行业竞争力。本次案例就因子分析与实验室LIMS系统相融合进行探讨及应用举例。
因子分析是指根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构—即公共因子。使用因子分析可通过评估变量之间的相关来评估数据的结构,使用此分析可以将每个原始变量建模为这些底层因子的线性函数。
某企业LIMS实验室想了解温度、湿度、压强、实验结果这四个因子之间的相关性,在不同的温度、湿度、压强下对同一个样品进行测试,得到7次实验结果如表1所示,试分析不同的温度、湿度、压强、实验结果的相关性大小。
温度 | 湿度 | 压强 | 实验结果 |
20 | 58 | 70 | 40.32 |
22 | 54 | 75 | 39.16 |
24 | 50 | 80 | 37.25 |
26 | 46 | 85 | 36.01 |
28 | 44 | 90 | 34.74 |
30 | 40 | 95 | 34.03 |
32 | 36 | 100 | 33.89 |
要验证温度、湿度、压强、实验结果这四个因子之间是否存在相关性及相关性大小,因此可以采用因子分析进行检验。
使用国工数据大脑组件对国工实验室系统数据进行读取,直接访问数据库获取数据集。
使用集成好算法的因子分析组件进行数据的因子分析处理,对组件参数进行设置,变量字段配置为温度、湿度、压强、实验结果,因为共有4个变量,所以要提取的因子数配置为2,单击运行,从调试面板中查看分析结果。
分析结果
检查载荷模式,以确定对每个变量影响最强的因子。接近于-1或1的载荷表明因子对变量的影响非常强。接近0的载荷表明因子对变量的影响很弱。有些变量可能对多个因子施加高载荷。
非旋转因子载荷通常很难解释,因子旋转简化了载荷结构,并且使因子载荷更容易解释。使用旋转的因子载荷,可以得出如下结论:
湿度(0.998)和结果值(0.986)在因子1上具有较大的正载荷,温度(0.999)、湿度(0.998)、压强(0.999)和结果值(1)在因子3上具有较大的正载荷,所以这两个因子共同解释数据变异的0.999或99.9%。
国工数据大脑平台可直接获取实验室LIMS系统中的实验数据,直接将实验数据对接到创建好的因子分析模型中,根据得出的结果分析温度、湿度、压强、实验结果在因子1和因子2的相关性。
因子载荷:表示因子对变量的解释程度。载荷范围可以为-1到1,国工数据大脑因子分析组件会计算非旋转因子载荷和旋转因子载荷。
变量:分析研究对象的变量。
要提取的因子数:因子数必须至少为1且不得超过总变量数,为了取得******结构,数据中的每3个变量拥有的因子不得超过一个。例如,有12个变量,则最多提前4个因子。
方差贡献率:使用方差贡献率(%Var)可确定因子解释的方差量。保留解释可接受方差水平的因子。
方差(特征值):如果使用主分量提供因子,则方差等于特征值。可使用特征值的大小确定因子数。保留具有最大特征值的因子。
不同的变量选择因子数之后,分析因子对变量的是否有影响。