1.引言
随着原材料、能源价格上升以及市场竞争日益激烈,企业对于其产品质量的要求越来越高。质量控制的传统方法是对产品进行人工检验,这种方法耗时耗力,并且含有由主观因素引起的不确定性。同时,由于是事后的离线检验,当发现产品质量出现问题后再对生产过程进行调整时,已经造成了大量的生产浪费。
统计质量控制(Statistical Quality Control)是过去二十年来在国内外企业广泛采用的另一种较为先进的质量控制方法,它是用频率分布、控制图、显著性检验等统计技术进行质量控制,其特点是找出影响工序的关键因素,采取措施进行生产控制,减少产品质量波动,达到提高产品质量的目的[1]。但是由于制造质量的分散和无序从而大大降低了统计分析的可实施性和可靠性[2]等原因,在企业的实际质量活动中应用还存在困难。
生产质量控制是利用生产过程的动态信息进行质量预测和质量控制。由于其实时性和较高的准确性,可以预估质量问题,从而降低企业的生产成本和经济损失。生产质量控制的基础是生产过程的质量预测,因为只有对未来质量参数进行估计,才能在产品质量发生问题前提前调整生产过程,真正达到提高产品质量的目的。进行质量预测的手段是建立生产过程的质量模型,即以各种决定产品质量的变量为输入,以产品各质量指标为输出的数学模型[3]。但由于影响因素较多而导致机理建模困难等原因,质量模型的建立比一般用于自动控制的对象建模更为困难。
数据挖掘是一类从大量数据中自动寻找规律的方法,在过去二十年中得到了大量的研究。数据挖掘方法的特点是能从大量的数据中自动分析并提取未知的、潜在有用的知识,因此可用于建立复杂系统的行为建模和行为预测。传统的数据挖掘应用通常只处理静态的数据,即不包含时间信息的数据。但当将数据挖掘方法用于建立生产过程的质量模型时,由于传感器对生产过程不断采样的原因,获得的生产历史数据通常都是时间序列,即历史数据是和时间相关的一系列值,因此通常用于处理静态数据的数据挖掘方法不能直接应用于生产过程质量预测模型的挖掘。
我们将从海量时间序列数据中寻找规律的数据挖掘方法称为动态数据挖掘。将动态数据挖掘的方法应用于生产质量控制时,主要的目标有两个:(1)通过对生产过程历史记录的数据挖掘,建立产品质量预测模型,并运用于生产过程,进行实时质量预测;(2)在产品质量出现问题后,利用对历史数据的挖掘分析生产工艺对产品质量的影响,找出隐藏的生产规律,为企业改进工艺提供决策支持。
本文以钢铁生产过程为背景,阐述用于生产质量控制的动态数据挖掘方法。并以宝钢的连铸生产过程为例,介绍了这种方法在实际中的应用。
2.问题描述
我们将面向质量控制的动态数据挖掘定义为以下过程: 设生产过程P具有n个可测的工艺参数x1,x2,L,xn。不失一般性设这些工艺参数均为时间的函数,且其取值可以是以下3种数据类型之一: (1)数值型,即该工艺参数的测量值为一实数(如高炉的炉顶温度或压力参数)或整数(如轧制的道数); (2)枚举型,即该工艺参数的测量值为给定集合中的一个元素(如热轧钢板的钢种); (3)逻辑型,即该工艺参数的测量值可表达为“是”或“否”二者之一(如某种原料成分是否存在)。
设上述任一工艺参数xi从t时刻开始的测量值已知,且可表达为周期为△ti的ni个采样值的时间序列,即: xi(t)={xi(t+△ti),xi(t+2△ti),...,xi(t+ni△ti)} (1) 其中任一采样值可能带有分布已知或未知的测量噪声。 再设生产过程P具有m个可测的产品质量指标y1,y2,L,ym。不失一般性设这些质量指标均为时间的函数,且其取值与上述工艺参数类似,可以是数值型、枚举型、逻辑型等3种数据类型之一。 设上述任一产品质量指标yj从t时刻开始的测量值已知,且可表达为周期为△Tj的mj个采样值的时间序列,即: yj(t)={yj(t+△Tj),yj(t+2△Tj),...,yj(t+mj△Tj)} (2) 本文所研究的面向质量控制的动态数据挖掘可表达为以下两种类型问题的求解过程:
2.1 质量预测问题 给定工艺参数x1,x2,...xn从t时刻开始的测量值时间序列历史记录 ,和产品质量指标y1,y2,L,ym从t时刻开始的测量值时间序列历史记录 ,求解质量预测模型 (3) 其中 为工艺参数 在t时刻的测量值向量, 为质量指标 在t时刻的估计值向量。 因此,数据挖掘的目标是根据工艺参数和质量指标的测量值时间序列历史记录 和 建立质量预测模型。该模型可以在线使用,也可以离线使用。在线使用时,根据工艺参数 的测量值可实时预测生产过程质量指标,从而进行质量控制。离线使用时,可以根据工艺参数 的设计值进行工艺设计验证,即将新的工艺参数设计值输入质量模型,验证是否会导致质量问题。
2.2 质量分析问题 给定工艺参数 从t时刻开始的测量值时间序列历史记录 ,和产品质量指标 从t时刻开始的测量值时间序列历史记录 ,求解质量关联模型: (4) 其中 是质量指标yj在出现问题的 时刻的测量值, 是逻辑值,表示工艺参数 是否与质量指标yj出现问题有关。 因此,数据挖掘的目标是根据工艺参数和质量指标的测量值时间序列历史记录 和 建立质量关联模型。质量分析是一种离线应用。在发生质量事故后,根据质量指标yj在出现问题的 时刻的测量值 ,可以判断哪几个工艺参数 和质量问题有关,为分析事故发生原因从而改进生产工艺提供决策支持。
3. 面向质量控制的动态数据挖掘方法
3.1 数据归整(Data coordination) 与静态数据的挖掘不同,对多个时间序列进行动态数据挖掘时,需要解决的第一个问题是数据归整。所谓数据归整,指的是将多个时间序列的数据进行调整,使它们符合时间、空间上的相关性,因为对某一挖掘结果有影响的可能是不同时间序列在不同时刻的值。
以钢铁生产过程为例,其内部的生产流程可以分为连续型过程(如连续退火过程)和批量型过程(如高炉炼铁过程)两大类。连续型生产过程的特点是:原料连续经过生产线各工艺装置处理后成为产品,各工艺装置操作参数的设计值为定值。以热镀锌连续退火过程为例,带钢依次进入连续退火机组的预热段、均热段、缓冷段和快冷段,各段的设定温度均为定值。
批量型生产过程的特点是:单批产品在同一工艺装置中,一般要经历多个加工处理时段,因此通常其各个操作参数的设计值在生产过程的不同时段取不同的值。以转炉炼钢过程为例,铁水在转炉中经过吹氧、排渣、加炭等阶段,每个阶段都有不同的工艺参数设计值。
由于上述两类生产过程的不同特点,在数据归整时必须采用不同的处理方法。下面分别加以阐述。
3.1.1 批量型过程的数据归整 对于批量型生产过程,由于单批产品的质量检验是在该批产品生产完成后进行,所以可以取单批产品整个生产过程中完整的工艺参数测量值时间序列和质量指标测量值时间序列作为动态数据挖掘所需的样本。
为方便描述,假设批量型过程 的产品质量指标 的采样周期均为 ,任一产品质量指标 从 时刻开始的测量值已知,且可表达为周期为 的 个采样值的时间序列,即: (5) 产品质量检验在 时刻完成,则取 作为动态数据挖掘所需的 个样本,其中  其中 [ ]为向下取整函数。
3.1.2 连续型过程的数据归整 对于连续型生产过程,应该将不同工艺参数在不同时刻对参与质量抽样检验的“局部产品”的测量值与质量检验结果一起组成样本,也即将工艺参数的测量值时间序列中,对某个质量检验结果有影响的一段时间序列提取出来,和质量指标测量值一起组成样本。
为方便描述,假设连续型过程P的产品质量指标 的采样周期均为△T,任一产品质量指标yj从t时刻开始的测量值已知,且可表达为周期为△T的 个采样值的时间序列,即: (10) 产品质量检验在 时刻完成。各工艺参数 的测量点可能安装在生产线的同一区域或者不同区域,参与质量抽样检验的第k个“局部产品”经历xi测量点所在的区域的时间为 ,其中 。 则取 作为动态数据挖掘所需的 个样本,其中  其中 [ ]为向下取整函数。]
3.2 时间序列的模式提取 3.2.1 质量不良原因的模式假设 通常生产质量不良的原因可分为两类,即工艺参数设计时有错误;或在生产过程中工艺参数未能控制在设计值。本文提出的动态数据挖掘方法在用于生产质量控制时,基于以下关键性假设: 假设:(质量不良原因的模式假设) 设生产质量不良的原因可以通过生产过程中工艺参数的时间序列实测样本反映出来。工艺参数的时间序列中某些特征的改变,引起生产质量的变化,而这些时间序列的特征,可以用模式来描述。 例如,在连铸生产工艺中,铸坯拉速不稳定时,容易出现纵向裂纹[4][5]。根据此先验知识,可以将铸坯拉速测量值时间序列的方差作为影响铸坯纵向裂纹质量事故的一个模式。为了解铸坯拉速测量值时间序列的方差与铸坯纵向裂纹质量事故之间的定量关系,可以采用数据挖掘方法从海量的铸坯拉速测量值生产历史数据中去寻找。 根据上述质量不良原因的模式假设,在进行质量预测模型的建模或质量事故原因的分析时,要进行时间序列的模式提取,即将时间序列样本集合转换为特征模式样本集合。
3.2.2 时间序列的模式提取方法 时间序列的模式提取可以看成一个从时间序列到模式集合的变换过程,即从时间序列中抽取有价值的模式。在经典的时间序列分析理论中,已给出了一类模式提取的方法:根据时间序列建立ARMA模型。该方法把时间序列空间映射到ARMA模型中的参数空间,也称为时间序列的ARMA特征空间。但是ARMA特征没有物理意义,难以根据它来改进产品质量。 为了使模式提取具有物理意义,有三类可供选择的方法: (1)根据理论分析和实际经验,构造与产品质量有关的模式类。例如根据经验,冷连轧过程中带钢温度先单调上升后单调下降的情况可能引起断带,因此将它作为带钢温度时间序列的一种模式。 (2)对于没有任何先验知识的情况,可以穷举构造所有可能的有物理意义的模式。例如时间序列的均值、方差、最大值、最小值、中间值、局部极值出现频率、单调性、凹凸性、与标准值的偏差、时间累计等等。 (3)对于只有部分先验知识的情况,可以结合前两种方法。 时间序列模式提取的一般步骤如下: (1)给定用于各工艺参数 测量值时间序列模式提取的模式集合,以 表示,其中 为某个工艺参数 要提取的一种模式; (2)给定待提取模式的时间序列 (3)根据各模式提取的计算方法,对上述时间序列 进行模式提取,即计算: (15) 其中mi为时间序列 在模式si下的模式提取结果,即模式评价值; 为模式si的计算算式。模式评价值mi的数据类型根据模式的不同可能为数值型、枚举型或逻辑型。; (3)将样本 中的时间序列 进行模式提取,提取的结果是将 测量值时间序列转换为模式提取结果 ,从而将样本转化为 从上述过程可以看出,经过模式提取,已经将时间序列数据转换成了不显含时间因素的模式评价值序列。
3.3 面向质量控制的动态数据挖掘过程 当给定一系列生产历史数据时间序列后,对于如第2节所定义的两类质量控制数据挖掘问题,部分的数据挖掘过程是相同的,但也有一部分并不相同,比如使用的挖掘算法以及对结果的处理等。下面分别进行讨论。
3.3.1 求解质量预测问题的动态数据挖掘过程 求解质量预测问题的动态数据挖掘过程,首先要为挖掘准备可用的数据,然后选择合适的方法进行质量预测模型的训练和测试,最后输出模型。具体步骤如下: (1)确定m个可测的产品质量指标 ; (2)根据理论分析和实际经验,确定可能影响质量指标的因素。根据这些因素,确定参加挖掘n个可测的工艺参数 ,以及工艺参数测量值时间序列模式提取的模式集合 ; (3)使用第3.1节中介绍的方法对工艺参数时间序列 进行数据归整,得到 个样本 ; (4)对样本所包含的数据进行数据清洗,包括去处野值、数据平滑等过程; (5)使用第3.2.2节中的方法,对样本中的时间序列 进行模式提取,得到模式评价值序列 ,从而将样本转化为 ; (6)将样本分为训练样本集和测试样本集,使用数据挖掘方法建立质量预测模型 ; (7)使用测试样本集对挖掘结果进行测试; (8)输出质量预测模型。
3.3.2 求解质量分析问题的动态数据挖掘过程 求解质量分析问题的动态数据挖掘过程,首先要为挖掘准备可用的数据,然后选择合适的方法进行关联分析,最后输出关联规则。具体步骤如下: (1)~(6)同第3.3.1节中的步骤,获得数据挖掘所需的样本数据 ; (7)使用动态数据挖掘中的关联分析方法,求解质量关联模型 ; (8)输出质量关联模型。
4.应用实例
运用上述理论与方法,作者在上海宝信软件股份有限公司与浙江大学工业控制技术国家重点实验室联合开发的冶金企业生产质量分析数据挖掘平台DMPlatform上,以宝钢一炼钢1900直弧型板坯连铸机生产过程铸坯纵裂质量控制为背景进行了动态数据挖掘试验。
纵裂是连铸板坯常见的表面缺陷之一,轻微的纵裂纹经板坯精整后对下工序不会产生影响,严重的纵裂纹会使整块板坯报废,甚至在连铸生产过程中引起纵裂漏钢,给设备和生产带来严重的危害。关于纵裂产生的原因有过很多研究,国内外很多文献中都有所报道。归纳起来主要有:钢水的成分、连铸的工艺操作参数、保护渣等方面,不同的工厂、不同的连铸机在不同的阶段,由于条件不同,每个因素对铸坯纵裂影响的程度也在变化[4][5]。
动态数据挖掘用于进行质量预测试验,即数据挖掘的目的是建立质量预测模型。定义质量指标为铸坯纵向裂纹,考虑的数据类型为逻辑值,即只考虑铸坯样本有或无纵向裂纹。在生产中通过切片硫印的方式获取该质量指标的检验值,采样周期为1小时。参与数据挖掘的工艺参数共有24个,最短的采样周期为5秒(如结晶器循环冷却水和二冷段冷却水的温度),最长的采样周期为1分钟(如铸坯表面温度)。根据已知的连铸理论和经验知识,如:锰硫比增大或者硫含量降低,裂纹减少;拉速越不稳定,越容易出现纵向裂纹等,确定了对各个工艺参数时间序列需要提取的具有物理意义的模式,如表1所示。
表1、参与数据挖掘的连铸生产工艺参数及提取的模式

连铸是连续型生产过程,采用3.1中的方法从生产历史数据中抽取样本,共采集了60批铸坯的生产历史纪录,每批数据记录的时间跨度为铸坯切片质量硫印检验前1小时。因此24个工艺参数时间序列的最大长度为86400个采样数据,总数据量约为200万个数据。然后对原始数据进行去处野值、数据平滑等预处理,接着根据表1对所有样本提取特征模式,利用朴素Bayes分类建立质量预测模型。图1给出了在DMPlatform软件平台上进行组态的数据挖掘流程。
采用5组工艺参数实测值对获得的连铸铸坯质量预测模型进行了检验,预测准确性为80%。由于连铸板坯纵裂的形成原因非常复杂,根据经验很难预测和控制,因此80%的质量预测精度对于铸坯质量控制有很大的帮助。
 图1. DMPlatform软件平台上进行组态的连铸铸坯质量预测数据挖掘流程
5.结论
生产质量控制是利用生产过程的动态信息进行质量预测和质量控制。将动态数据挖掘的方法应用于质量控制时,主要解决两个问题:(1)质量预测问题,即通过对生产过程历史记录的数据挖掘,建立产品质量预测模型;(2)质量分析问题,即在产品质量出现问题后,利用对历史数据的挖掘分析生产工艺对产品质量的影响,找出隐藏的生产规律,为企业改进工艺提供决策支持。
由于生产历史数据通常都是时间序列,因此用于处理静态数据的数据挖掘方法不能直接应用于钢铁生产过程。本文给出了动态数据挖掘用于生产过程质量控制的一般方法。将此方法运用于宝钢一炼钢1900直弧型板坯连铸机生产过程铸坯纵裂质量控制,在上海宝信软件股份有限公司与浙江大学工业控制技术国家重点实验室联合开发的冶金企业生产质量分析数据挖掘平台DMPlatform上进行试验,质量预测准确性达到80%。
[参考文献]
[1]刘海英. 基于计算机技术的工序质量控制系统研究.中国机械工程,14(13):1118-1121,2003 [2]刘明周,任兰,张铭鑫. 产品质量统计过程中的制造质量数据管理方法研究.计算机集成制造系统,11(2),280-283,2005 [3]万百五. 工业生产的产品质量模型和质量控制模型及其应用.自动化学报,28(6),1019-1024,2002 [4]熊毅刚. 板坯连铸.冶金工业出版社,1994 [5]曹广畴. 现代板坯连铸.冶金工业出版社,1994
|