听起来很“性感”的大数据风控,为何会被“污名化”?
2018-01-18 09:15:03     [查看原文]

原标题:听起来很“性感”的大数据风控,为何会被“污名化”?

大数据驱动的金融科技行业,正承受着业务和心理上的双重压力。

业务上,“支付宝年度账单”事件让公众对个人数据信息使用心生敌意;心理上,大数据行业更承受着来自监管的质疑。

曾被誉为Fintech中最具革命性技术的“数据驱动”风控模型,直接被泼了一盆冷水。《关于规范整顿“现金贷”业务的通知》中明确要求“谨慎使用‘数据驱动’的风控模型”,而包括上海在内的各省市近期转发文件中,对上述要求再一次强调。

监管层已洞察到消费信贷行业乱象,充斥着以“数据驱动”为名、实则无风控、以高利率覆盖高坏账的市场主体。

大数据风控作为一个新生事物,目前还处在摸着石头过河的阶段。麻袋理财研究院认为,监管对“数据驱动”风控模型的质疑并非全盘否定,而是对其“概念化”、“空心化”趋势的警示。大数据风控成了背锅侠,背后根源是业界的浮躁——投机钻营,抢抓现金贷风口,盲目追求快速做大规模,实则忽视风控。

一、大数据风控是如何被“污名化”的

互联网时代效率为王,大数据、人工智能等技术日趋成熟,让高效的量化风控有了更多的想象力。

但另一方面,不少机构用大数据概念拔高品牌,机构间的竞争更加剧了大数据概念的滥用。“伪命题”、“大忽悠风控”也成了监管和业内常有的批评声音。

“大数据风控”概念被滥用,已形成三大误区:

1、用“大数据风控”掩盖无风控之实。

2、缺乏自主风控能力,完全依靠第三方征信数据平台。如趣店曾经对芝麻信用的依赖。

3、把大数据或者大数据模型等同于风控。

这其中,现金贷行业用“大数据风控”掩盖无风控之实问题非常突出。

麻袋理财研究院认为,大数据风控特别适用于小微资产(现金贷、消费贷、小微企业贷),这类资产主要风险是还款意愿,因此大数据风控90%的价值在于反欺诈。大多数现金贷的风控逻辑就是,根据用户提交的信息,在第三方征信平台跑一遍数据,剩下全部交给二元好坏模型进行风险定价。

二元好坏模型的价值在于量化定价,包括授信额度、期限、利率等,主要工具是评分卡。如Lending Club把借款用户分为A1-G5共35个级别,对应由低到高的不同利率。而小额超短期现金贷(类似于payday Loan)以随行就市为基础,判断全部通过拍脑袋决定,但原则是用超高利率覆盖风险。因为在本金中预先扣除了高额砍头息,所以超短期现金贷可以不风控,甚至用户不还钱也没关系。

真正的大数据风控要求高,难度大,既需要大量有效数据,又需要精密可靠的模型,还需要经过时间的检验。目前业内鱼龙混杂,很多公司要么缺数据,要么缺技术,要么缺实践。为避免大数据风控成为空谈,需要行业自律与监管层共同努力,避免大数据风控被污名化。

二、大数据风控核心问题在哪?

除了概念化的品牌包装导致的污名化趋势,大数据风控被质疑有其内在的原因。

(一)数据质量问题

影响大数据风控的有效性,首要原因是数据的真实性不高,包括社交数据和电商交易数据。

1、社交数据的真实性问题

虚拟社交行为与现实世界中存在较大偏差,大部分实质上可归结为感性的“秀炫晒”,那么机器根据预先设置的特征参考提取数据,难以形成对象的真实用户画像。美国的Lending Club和Facebook曾进行过相关合作,结论是社交数据有效性欠佳。

2、电商交易数据的真实性

我国电商行业发展中都遇到过严重的刷单现象,导致交易数据严重失真。

(二)大数据风控有效性问题

1、孤岛数据的融合问题

大数据用于风控、营销的本质差异在哪里?营销可以管中窥豹,如果有人在京东上面买了一本考研资料,那么可以从这个行为判断出此人准备考研。但是如果仅仅通过这一个维度的数据,就判断此人是一个好人,这可能很难。

必须要收集这个人在多个角落的数据,接近360度都是一个好人的时候才能判断。所以大数据应用在风控最大的挑战,就是不能像营销一样可以随心所欲地管中窥豹,必须要收集尽可能全的数据才能洞悉一个人,才能给一个人下结论。

但是,这360度全方位的数据,包括金融数据、消费数据、行为数据等等,从小数据到大数据、从静数据到动数据、从薄数据到厚数据,收集起来绝不是那么容易的。

因为新兴的消费金融机构目前被排除在央行征信体系之外,所以大数据风控多以互联网行为数据为基础。而目前任何一家大数据风控提供商都难称得上维度全面,芝麻信用、腾讯信用也都只是基于阿里、腾讯在网络交易、社交等行为数据优势。

实际上,业内用以判断信贷风险的数据可分为强变量数据,如信贷、工商、社保等来源于传统金融机构和政府数据;和商品生产、流通、消费环节中产生的中变量数据;以及互联网社交等弱变量数据。那些只以单一维度弱变量数据为基础的大数据风控有效性不佳。

2、系统和数据没经过压力测试

1)业务激进导致风控模型没有验证调整的时间

良好的规划对公司业务管理至关重要。规划首先应明确公司是处于扩张业务、管控业务还是精简业务的总体战略,然后对公司内外部的资源和竞争优势进行分析,最后设计出符合公司预期的产品。

信贷是周期性的,科技也是有周期的。消费金融行业发展过程中存在对某一类资产蜂拥而上、风口期过后又迅速退出的问题。基于互联网思维大干快上的过程中,由于缺乏业务规划,适用于业务扩张期的大数据风控模型会被过度地学习数据中细节和噪音,比如模型上线以来25岁的用户都是优质用户,于是25岁作为标准进入决策引擎,显然缺乏逻辑,这就是机器学习中的“过拟合”问题。实际上在情况变化之前是没有办法发现问题的,而互联网思维没有给予模型足够的调整时间,最终造成有效性欠佳。

2)没有经过经济周期的检验

Capital One的风控模型曾把是否申请了入学贷款作为重要风控指标,因为学生在更高学历毕业后,往往获得较好的工作,是潜在优质客户。但次贷危机把这个逻辑打破了,风控模型突然失效,因为名校毕业生也面临失业。

现实世界免不了黑天鹅事件,黑天鹅事件却是在大数据预测规则之外,一旦出现会冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。从这个角度上说,大数据风控是无法预测的。传统的风控技术已经历三十年、五十年周期的迭代。但是大数据的检验成效现在看不了。没有经过经济周期的检验正是大数据风控被质疑的核心问题。

三、正确理解数据驱动的风控模型并合理使用

因为能有效降低成本、提高效率,帮助把金融服务覆盖到更多人群,大数据风控对于普惠金融不可或缺。作为未来消费金融行业的重要着力点,如何正确理解“数据驱动”的风控模型,并合理使用呢?

(一)正确理解“数据驱动”,必须基于业务逻辑

相对于“数据驱动”的,应该就是“业务驱动”或“信贷逻辑驱动”,他们的区别就是“数据驱动”往往关注的是“相关关系”,但“业务驱动”更多关心的是“因果关系”。

在信贷业务中, 常用的因果关系有“通过收入评估推断偿债能力,能力越高风险越小”、“通过历史的信贷记录来判断,记录越好风险越小”等。

这些朴素的金融逻辑与潜在风险之间是存在着很强的因果关系,因此在绝大多数传统的金融机构,都是通过对此类判断来推断借款人的风险。这些规则是被千百年来人类社会的实践所验证过的。而只要严格的按照类似的规则来对借款人进行审核,借款人的风险会在一个可控的范围内。但这些信息对于在很多互联网实时的场景中获取难度大,成本高。

近年来随着大数据、人工智能等技术被神化,以及数据获取成本,难易程度等多方面的原因,“相关关系”逐渐被应用到风控审查的流程中,通常“相关关系”指的是那种通过数据分析发现的某些与风险相关的指标,但难于被业务或金融逻辑所解释的关系,如前述“25岁”的例子。这个可能就是被质疑的“数据驱动”了。

“因果关系”和“相关关系”其实各有优缺点,一个稳,一个准。两者结合可以更好的促进业务的发展,同时对于相关关系的深入研究,来发现其中的因果关系,可以更好的促进我们对于借款人行为的理解,将其转化为“因果关系”。麻袋理财研究院认为,探索传统的逻辑回归加机器学习而形成的整合式应用的方法是王道。

(二)端正大数据风控应用理念,不能盲目崇拜算法

风控不仅仅是大数据模型,风控更应该是一个完整的闭环体系,大数据模型对于风控管理是非常重要的,但它只是其一。风控体系包括很多层面,例如贷前、贷中、贷后全面的风控系统的搭建,包括新产品上线的风险评估、渠道管理、反欺诈人工调查,还有操作风险管理、资产管理等都是风控体系中非常重要的环节。

对算法、大数据风控的盲目崇拜和错位应用,是极大的误区。

基于“了解你的客户”的原则,不同的客户群体、消费场景、产品设计所面临的风险点是不同的,没有一套风控模型可以包打天下;风控体系搭建非一日之功,数据驱动也非一针见效的灵丹妙药,需要不断的迭代、优化,小步快跑。

所以不要在这个领域里面对新鲜的算法盲目崇拜甚至直接移植,还需要更多的从业者一起去探索和再创新。

(三)把大数据风控作为传统风控手段的补充

基于以上两点得出的结论是,信用风险评估的强相关数据还是金融数据,互联网行为数据为基础的大数据风控只是一个补充,不能够完全替代传统的信贷风险管理。麻袋理财研究院认为,大数据风控可以从数据纬度和分析角度提升传统风控水平,是一个必要的补充,可以让传统风控更加科学严谨,但是不是取代传统风控的模型和数据。

(四)建立完善的风控模型管理制度

业内对于风控模型,一般会经历几个阶段才会进入业务应用:模型研发、模型验证、模型评审、模型校验、模型应用监测。每个流程都会对模型的正确应用产生很重要的影响。

决不能因为“互联网思维”大干快上而把流程简化成模型研发和模型部署两步,这不是“不谨慎”,是草率。

同时建立完善的风控模型档案制度。模型文档的完整和流程的可追溯,是业务持续运行,降低风险的重要保证。

四、小结

麻袋理财研究院认为,对“数据驱动”风控模型的质疑并非全盘否定,而是对其“概念化”、“空心化”趋势的警示。大数据风控是背锅侠,背后根源是业界的浮躁——善于投机,力求抓住业务风口,盲目追求快速做大规模,忽视风控。

金融讲究的是稳而不是快,讲究的不是抓住机会而是不犯错,金融领域最具竞争力的不是暴利而是持续稳定盈利。

业界基于互联网思维,追求每次都能踩准台阶,但是在每个台阶上站的都不稳,以至于一次次寻找更高的台阶。大数据风控是唯一能够满足需求的风险管理方式,但行业连走完一个完整模型管理流程的时间都没给。拔苗助长,用完就扔,这种情况值得反思。

要为大数据风控正名,首先必须真的在做大数据风控,正确认识大数据风控与传统风控的关系,业界需要探索传统业务逻辑加机器学习而形成的整合式应用的方法。

【钛媒体作者:麻袋理财研究院,madailicaiyanjiuyuan(微信公众号)】

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

本栏目中的所有页面均系自动生成,自动分类排列,采用联索网络信息采集、网页信息提取、语义计算等智能搜索技术。内容源于公开的媒体报道,包括但不限于新闻网站、电子报刊、行业门户、客户网站等。使用本栏目前必读