分类与回归树方法在分析晶圆镀银层脱落问题中的应用

摘要：很多芯片背面镀银以帮助其与金属的连接、改善背面电极的性能。但是在切割封装过程中，一些芯片会发生镀银层脱落问题。通过分析，该问题与晶圆测试有关。分类与回归树方法是一种分析大量、模糊、随机、含噪声数据的有效工具，适合本问题的分析。通过它分析与该问题相关的大量历史数据，发现了三个影响因素，它们可以合理解释产生的问题，并经受了进一步实验的验证。

关键字：分类与回归树；镀银层脱落；晶圆测试

1 分类与回归树简述

分类与回归树（Classification and Regression Tree， CART）是一种常见的决策树分类方法。决策树是以事例为基础的归纳学习算法，利用一系列规则，从一组无次序、无规则的事例中建立树状图用于分类与预测，神经网络、卡方自动交互检验、二值逻辑回归等也是常见方法。分类和回归是通过已知对象多维度上的数据特点建立预测准则，进而通过该准则和未知对象相应维度上的数据进行预测的过程。分类侧重于预测对象在不同类间的归属；回归则侧重于预测对象的数值。

1984年，CART由Breiman[1]等提出，是一种分析大量、模糊、随机、含噪声数据的有效工具，可以发现其中隐含的、未知的、有潜在作用的信息和知识。在数据挖掘的大量实践中发挥了很好的作用，如个人信用分析[2]等。CART方法通过简单二叉树进行数据分类。二叉树是由根结点、中间结点和叶结点组成。每个根结点和中间结点作为父结点均有2个子结点，叶结点不再分割。CART以选定特征从根结点开始反复划分数据集合为两个子集，直至叶结点。而该特征选自全部可能特征和分支，以在两个子结点中减少产生子样本的复杂度。CART方法可以有效处理缺失数据；有利于分析复杂样本数据；同样适用于连续和离散变量；易于理解、使用、说明、解释。

2 CART的构建、修剪和检验

完整地建立CART的过程是由构造、剪枝和检验三部分有机组成。CART二叉树的构造就是采用自顶向下的方法从根结点开始递归地对每一结点上的样本集合按照一定的标准选择分支属性，并以此属性的某一取值划分样本集合，向下建立分支，直到达到特定要求。选择划分属性是逐个扫描预测变量和划分阈值并选择的过程，其中，利用复杂度函数来作出选择，复杂度降低的增益代表了结点划分的优良性。通常利用熵、基尼指数等方法来构造复杂度函数。因此，建立CART树是一个寻找更小子树根节点的拆分规则的过程。而当满足小结点、纯结点、无分支划分属性条件中的某些条时，就停止划分。

上述过程构造出的树未必最优，，为了防止过拟合现象，需要对树进行剪枝，以提高对未知样本分类和回归的能力。前剪枝和后剪枝两种方法中，CART采用后剪枝方法，较前剪枝它往往更优，前剪枝可能过早终止树的生长。前剪枝是通过特定的判定标准在产生完全拟合整个训练集的完全增长的决策树前就停止决策树的生长。而确定合理的判定标准很困难。树充分生长后，通过后剪枝方法去除多余的树枝。CART 算法通常遵循最小代价成本进行后剪枝。对于每个非叶节点，通过计算、比较其被修剪前、后的预期分类错误率，决定修剪与否。被修剪的结点成为叶结点，并标记为样本中元素个数最多的类别。

经过构建、修剪将产生一系列子树，需要对它们的分类与回归的准确性进行评价，选出预期分类错误率最小的树。通常可采取交叉验证、抽取检验样本和二次抽样方法。交叉验证利用样本的子集轮换完成树的训练和检验过程。其中每个记录将用于检验一次，而各记录用于训练的次数相同。即当部分记录用于训练，其余用于检验。而抽取检验样本和二次抽样都采用单独的检验样本。抽取检验样本是从学习样本中随机抽出检验样本，而二次抽样来自再次抽样。复杂度测量、误分类成本结构、验证方法、不同水平的标准差规则都会影响最终生成的树，选择“最佳”树的标准必须考量，而成本—复杂性较为常用。

3 利用CART分析晶圆镀银层脱落问题

芯片背面镀银可以帮助其与金属的连接、改善背面电极的性能，对于很多芯片必不可少。因此，晶圆测试中经常遇到背面镀银的产品。切割后，某些镀银的芯片在从麦拉膜上摘取过程中发生镀银层脱落现象。经过历史记录分析，发现该问题与晶圆测试相关。对于来自同一晶圆生产厂家的产品，仅某一地区晶圆测试车间测试后的产品出现该类问题，需要对其深入研究。

根据历史数据，镀银层脱落问题发生频率很低，而且潜在影响因素很多、实验周期长、实验成本高，需要进一步减少怀疑的因素数量。而来自生产的数据有噪音、数据量大、同时存在连续和离散影响因素，因此，先采取CART方法对历史数据进行分析，确认影响因素，并找出分类的标准，再利用实验加以确认。

在对镀银层脱落问题进行CART分析的过程中，首先需要构建合理的模型。利用头脑风暴、因果图等方法找出17个潜在影响因素用以建模。建模中，主要利用了分类和拆分分析。由于以大量历史数据作为样本，所以将其随机划分为训练和测试样本两个集合。利用训练样本集合进行模型训练，包括剪枝。找出各潜在因素与镀银层脱落问题的内隐关系。接下来利用测试样本集合对检验，判断模型是否符合要求，以错误率为标准。不达到要求的模型需要进行调整。模型建构流程如图1。

经过CART分析，发现通过高温测试时间、装载平台型号、晶圆在装载盒中的位置三个因素可以建立适当的模型，对镀银层脱落问题有良好的预测能力，并且也具有直观的解释力。银是一种活跃的金属，可与空气中的氧、硫及卤族元素反应，高温时反应加剧。与硫、氯及卤族元素反应对背面镀银层质量产生影响。而高温测试时间影响了反应时间，装载平台型号、晶圆在装载盒中的位置影响了反应中与空气的接触情况。经过进一步的实验确认，这三个因素确实对镀银层脱落问题有显著影响。对它们加以改进后，镀银层脱落问题得到了解决。

4 结论

CART方法可以有效处理复杂、有噪音样本数据，同样适用于连续和离散变量，易于理解、使用、说明、解释。适用于分析生产过程中产生的历史数据，发现问题。利用CART方法很快发现了在晶圆测试过程中对镀银层脱落问题有显著影响的三个因素，减少了损失，节约了实验成本。

参考文献

[1]Breiman L， Friedman J， Olshen R， al et. Classification and Regression Trees [M]. New York： Chapman & Hall， 1984

[2]孟昭睿. 基于分类回归树的个人信用评价模型[J]. 企业技术开发，2009年2月，28（2），p76-77

相关推荐