五、 数据真实性
这是一个比较有中国特色的问题,虽然发达国家也有财务欺诈,但是绝对没有中国的严重。由于制度的缺失,或者制度执行的乏力,在中国,即使是会计师事务所审计出来的数据可能也是不可靠的。所以反财务欺诈,对于模型开发者是面临的严峻问题。但是模型开发者能做的只能是发现在统计意义上或者逻辑关系上出现的异常现象。
六、 数据缺失
我国银行建立
评级模型,面临最为严重的问题是数据缺失。在数据缺失非常严重的情况,建立一个优秀的模型几乎是不可能的,所以在此讨论在能建模的前提下,数据缺失问题如何处理。
如果一个变量缺失一定比例(例如50%)以上,只有放弃该变量;如果从经济学含义上,该变量确实非常重要,那么只有通过专家的经验来寻找可替代的变量(或者变量组合)。例如,家庭地址的所属区可能是十分重要的变量,但是并没有被记录,或者建模人员无法从家庭地址中提炼出区域,那么可以通过邮政编码和电话号码结合表征区域变量。
在数据缺失不是很严重的情况下,我们可以采用缺值替代的方法,例如均值替代、同类均值替代等,或者在不影响数据量的前提下也可以直接删除数据缺失的记录。
以上讨论的都还是完全随机缺失,这类缺失是完全随机发生的,不影响样本的无偏性。但是缺失更常见的随机缺失和非随机缺失,所谓随机缺失是指该变量的数据缺失与其他变量有关,例如财务数据缺失情况与企业的大小有关;非随机缺失是该变量的缺失与本身取值有关,如高收入人群的不原意提供家庭收入,财务情况差的公司不提供财务报表。
对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计;而非随机缺失还没有很好的解决办法。总结而言,缺值问题还是一个需要深入研究的问题。
七、 过度拟合
由于样本中存在噪音,所以模型的拟合优度只能达到一定程度,这是理论能达到的最优拟合度。有些时候,当模型把噪音当成了信息进行拟合,使得拟合优度超过了理论的最优拟合度,过度拟合的模型实际上包含了错误的信息,预测能力很差。过度拟合可以通过评价样本等方法来解决,当训练不断进行,训练样本的误判率不断降低,而评价样本则呈现先降后升的情况,那么当评价样本的误判率到最低时,我们就应该停止训练。
八、 指标选取中一些问题
信用评级在我国还处于起步阶段,而发达国家已建立起一套相当完备的标准,在很多方面我们可以借鉴已有成果,但我国的文化习惯和道德标准与发达国家之间存在很大差异,在选取指标时应注意国情和评估的具体目的。具体评价指标的选取各国具有不同,如美国法律不允许将性别、年龄等个人属性作为指标列入消费者信用评估体系,但这显然是非常重要的指标,而且我国目前没有这样的法律规定;德国将是否服兵役作为一项重要指标;意大利将出生省份和婚约中对共同财产的要求作为重要指标;而日本则将供职公司是否上市以及公司的雇员数作为重要指标。
九、 留酌情处理权
信用评级需要留给专家一定的酌情处理权。一方面,在我国信用评级制度发展的起步阶段,在信用体系未完善之前,信用信息的提交和披露还很不规范,信息的真实性和准确性还无法得到保证,利用评估模型得出的结论固然客观,但若模型计算所依据的信息本身有问题还是会发生误判;另一方面,评级模型是统计意义上的函数关系,对于个别的特例情况,不一定能得到合理的评级。所以,在实际工作中应对此保留酌情处理的权利,根据专家的经验和授信方的具体要求对评级进行认定或者调整。
作者简介:梁世栋,中国建设银行风险管理部计量处高级风险经理,金融工程学博士,曾在香港大学从事博士后研究。 信用中国 编辑:王运连