评分模型的演进:阶段3-数据库生成(1)

选自《credit risk scorecards》,翻译:林晶

 

完成第2阶段项目参数的设定后,数据库的开发工作就可以着手了。数据库包括一套预测变量,外加目标变量。

样本标准设定

一旦项目的参数,细分和研究方法被确定,样本标准需要明确。具体有:

所需记分卡的数量和细分标准,包含如何识别各种细分的说明;

“坏”、“好”和“中间”的定义;

每个细分组合的变差率和通过率;

演示及样本窗口;

除外条款。

另外,以下的几点也需要在这个阶段说明:

细分的样本范围和样式的种类;

来自内部或外部资源的特性清单;

衍生的特性。

特性的选择

样本开发中特性的选择是整个记分卡开发过程中至关重要的一环。特性被仔细挑出的这个步骤,将使某些商业意识在计分开发项目的每个阶段不断增强。可供选择的是将整个数据池或其他数据储藏室的形象输入记分卡开发数据库中。预先选择特性是为了使整个开发进程便利,并且特性的选择应基于各种不同的因素,包含:

  • 预期的预测力度。这个信息源来自积累的经验(已收集和风险分析获得的),原先的分析和计分卡项目。这也是为什么采访决策者或收集人员,能够起到极大帮助的缘由所在。
  • 可靠性和稳定性。一些不确定的数据可以处理或易于处理(如收入),特别是银行分行的员工或贷款经纪人销售产品的情况下。但在某些情况下,确定这类数据可能会导致成本过高(比如销售价值低的贷款产品),因此这类数据应当排除在外。
  • 收集的便利性。申请表格中的数据元素是任选的(即申请者可以留空白),并且是可以回避的,即使是强制性的数据,也需要是记分卡一心所关注的才可以。
  • 可解释性。某些特性,例如职业和行业是易于主观解释。不同的人可能将同一个人归于不同的职业或行业中;并且随着非传统职业的发展,人的职业归属将越来越难以区分。这也是为什么大多数机构将职业归属到“其他”种类中,这种情况大约占到75%的比例。甚至有这种情况,这类易于主观解释的特性已经被用于预测,对未来的解释的忧虑可能成为一个较大的问题。预期可以使用仅当主观解释被信用风险经验所担保时。有这么一个例子,在诸如“管理品质”的特性,可以被用于微型的商业记分卡中(也就是大家所熟知的中小型企业,即SMEs)。然而其毕竟是个主观性特性,关于其的判断主要是基于决策者经验。
  • 人工干预。这是指特性可以明显受到人工干预(如,当破产倒闭被指定成一项政策,我们就可以尽量规避那些会引起倒闭的指标)。然而排斥推理可以在某种程度上矫正这种情况,政策规则和记分卡特性应该相互独立,而不是结合在一起。
  • 特定信息类型所适用的法律环境。即使有些特性历史上已经被收集(如,婚姻状况,性别等),但是在记分卡开发中最好将法律或政治背景等特性排除在外。
  • 基于商业推理的比率的确定。使用者需要规避“地毯式轰炸法”,去接近比率分析法(该比率考虑进了数据库的所有变量),划分它们,并且产生用于预测但不解释的比率清单。任一比率的确定需要经过验证。例如,征信局在最后12个月的调查结果除以最后3个月的调查结果的比例作为一个同长期信用度相比较的短期信用度指标。相同地,其他指标如购买力、偿付能力、利用力、国际收支情况,偿付比率等等短期同长期之间的比较,也被证明是很好的风险测量指标。以上的论述均需要配合很好的商业推理。
  • 未来数据的可获得性。记分卡开发过程中的任一数据需确保在未来的时候可以继续获取到。
  • 竞争环境的改变。特性可能在当前并没有很强的指示性,可能再未来会由于行业趋势的变动变成很强的指示性,例如,信用环境变得更好或新产品的出现。

现在已经清楚了记分卡需要基于过去两或三年的数据上开发,并且记分卡被寄予能够在大约接下去一两年的时间内发挥作用的期望。因此,过去和未来的趋势在这个时点需要被同时考虑进去。针对这种方式的处理方式是向征信局请教过去两到三年间信息是怎样变化的。例如,诸如国际收支平衡情况、贸易情况、信用水平等是否在过去一些年间发生了显著的变化,是向上还是向下的趋势。然而这并不会改变记分卡开发的数据,这可被用来管理预期和设计合适的策略。例如,竞争环境的越来越激烈将增加征信局向申请者的平均调查次数。用历史数据开发的记分卡将处理这个情况,例如,基于历史情况,12个月内超过4次的调查将被视为高风险。尽管如此,现在通常建议将拥有4次被调查历史的风险度与正常风险,中等风险联系在一起。所以,我们可以拥有改变人工调查的分配分值和将趋势的改变从意识上调整过来。最后,这将导致争论,这再以后会论述到,而且只会被详细论述而不是被忽略掉。

在这个任务中争论所覆盖的范围再一次强调了同其他项目团队成员同心协作的重要性。

抽样

记分卡开发过程中,有两道程序需要抽样,也就是,将整个样本数据分成开发和有效数据,并且决定数据中好、坏和拒绝的比例。

开发与有效数据

拆分开发(记分卡开发过程中所使用的样本数据)与有效(模型确定后所持有的数据)数据库有多种方式。通常而言,记分卡的开发一般需要70%-80%的样本数据;剩余的20%到30%会被预留,用于独立测试或验证记分卡。若样本规模较小,记分卡就可能使用所有样本,验证方法是随即抽取50-80%的样本。

好/坏/拒绝

先前所提到的,通常各需要2000个好、坏和拒绝的数据便可以满足记分卡的开发要求。这种方法叫做超采样技术,广泛应用于工业中。超采样技术调整后可被用来预测。样本数据充足的一个额外好处是减少了多重共线性的影响,最终使得结果逻辑回归统计显著。

只要用于统计验证的好和坏的数据充足,样本数据通常被以比例划分。例如,一个4%变坏率的组合,需要样本开发数据有4%的坏的数据(如4000个坏数据和96000个好数据)。这里不需要调整这个数据库的先验概率,因为样本已经反映了实际概率。

最佳样本的规模的决定有许多统计方法可以办到。一种方法是使用动力曲线(例如,SAS中的PROC POWER/GLMPOWER/PSS)。

欢迎您发表评论:

产品与服务

评级体系

刊物

关于我们








target="_blank">