数据分析与风控趋势(消费金融、信用卡及供应链金融)

数据分析与风控趋势(消费金融、信用卡及供应链金融)
2019年04月25日 00:00 供应链金融SCF_770
语音播报 缩小字体 放大字体 微博 微信 0

基于数据和技术驱动的方式管理风险,是行业未来发展的一个不可逆转的大方向,金融机构须主动拥抱这个发展趋势

业务介绍

模型一定是基于业务的,本文所提及模型的实际应用场景。该机构主营业务有三大模块:

消费金融,包括消费分期和现金分期;

信用卡;

供应链金融。

Fig . 1 主要业务范围

数据中台

数据中台的概念来源于军事领域,最早由美军的作战体系演化而来的。

技术上所说的“中台”主要是指学习这种高效、灵活和强大的指挥作战体系。

比如电商领域,经过十几年的发展,组织庞大而复杂,业务不断细化拆分,也导致野蛮发展的系统越来越不可维护,开发和改造效率极低,也有很多新业务不得不重复造轮子,因此业界诞生了不少知名中台系统,最著名的是阿里云的数据中台建设。

数据中台抽象为三个层次,底层是基础数据层,中层业务抽象模型层,以及最上层的算法模型层。

Fig . 2 大数据中台的抽象结构

大数据中台的目标是为了解决效率问题,同时降低创新成本。

中台的目标:减少沟通成本,提升协作效率;

中台的实现手段:制定标准/规范、提供高可用数据/算法/应用服务、提供统一、标准的数据研发工具;

中台的原则:数据资产的集中管控,分布式执行。

数据中台收集了包括OTA整个生态环境数据,框架的最底层是计算与存储资源层,其上是数据准备层,融合多数据源,并对其做了抽取,清洗,能够提供在线与离线的服务,使其能够为用户画像,特征引擎提供基础数据,并应用于模型算法。基础数据、用户画像、特征集市、模型服务这些内容以数据资产的形式来管理。基于这些数据资产,可以为各个业务线-获客,准入,经营,留存的全生命周期提供各种服务,框架图如下:

Fig . 3 大数据中台全景

风控模型体系

消费金融的风险,大体可分为可控风险及不可控风险,算法能解决的主要是可控风险。可控风险包含欺诈风险、信用风险及作业风险;其中,欺诈风险指的是客户在发起借款请求时即无意还款,按照人数可以分为团伙欺诈和个人欺诈,欺诈者往往通过伪造身份信息、联系方式信息、设备信息、资产信息等方式实施欺诈;信用风险指的是借款人因各种原因未能及时、足额偿还债务或银行贷款而违约的可能性。不可控风险包括市场风险、实质风险及名义风险。

Fig . 4 风险基本分类

风控模型,贯穿于获客、准入、经营、逾期的整个客户生命周期。

根据用户生命周期的不同阶段,可将风控模型分为贷前信用风险模型、贷中行为风险模型、欺诈检测及贷后催收模型。

事实上,抓住信贷审批管理就能控制80%的风险,一旦用户获得授信,后续的管理只能控制20%的风险。

除此之外,贷前、贷中、贷后不同场景,可以从不同的观测粒度进行建模与抽象。拿该机构的业务来讲,可以从每一笔交易角度来看,也可以从生态中用户账户来看,也可以从自然人概念为核心的客户级别来看。一个自然人客户与账号可以是一对多的关系,一个账号与交易也可以是一对多的关系。

Fig . 5 风控模型体系

银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户的风险水平有一个准确的判断,并作为风险定价的重要手段。

行业内常用的是ABC三张评分卡。A卡、B卡、C卡分别表示:申请评分卡(Application Score Card),行为评分卡(Behavior Score Card),和催收评分卡(Collection Score Card)。

A卡:在获客过程中用到的信用风险模型。

从模型的角度来看,它会对用户未来一定周期内的逾期风险作预测,即模型会在用户授权的情况下收集用户多维度的信息,以此来预测逾期概率。预测的逾期概率被用于风控策略或者转换成信用评分,比如国外经典的FICO评分,国内的蚂蚁金服的芝麻信用评分、京东小白评分等。

A卡:评分除了用于决定是否通过用户的信用申请,还用于风险定价,比如额度、利率等。

B卡:行为评分是指,用户拿到信用额度后,模型根据用户的贷中行为数据,进行风险水平的预测。

本质上讲,这个模型是一个事件驱动的模型,在互联网金融领域,一般会比A卡的预测时间窗口要短,对用户的行为更为敏感。B卡除了可以用于高风险用户的拦截,也可以作为额度、利率调整的重要参考因素。

C卡:催收评分,会判断何时以何方式催收效果最佳。

例如当用户出现逾期时,机构应该先催谁,或者哪些用户不用催,就自动会把钱还回来。催收模型的效果一定要节约催收成本,提高回催率。

贷前信用风险模型(A卡)

贷前主要解决用户准入和风险定价问题,即面对一个新申请的进件用户,判断用户是否符合产品的放款条件及相应的放款额度、价格、期限等问题。主要包括三类问题:

反欺诈识别:根据用户提交的材料进行身份核实,确保用户不存在欺诈行为;

信用评级:与传统银行的信用评分卡原理类似,数据维度更加丰富,综合用户的社交数据、行为数据、收入数据等,判定用户的信用风险等级,评估用户的履约能力;

风险定价:根据用户的负债能力和收入稳定性,判断用户可承担的月供金额,确定用户的放款额度、偿还期限等,并根据用户风险等级确定用户的费率。这三个问题往往是互相影响、互为前提的。举个简单的例子,对一个月收入3000的用户来说,月供在1000左右,用户可能履约良好,信用等级良好;但如果月供提高到4000,严重超出了其收入水平,即便不是有意欺诈,也可能出现断供的情况,从而得到比较差的信用等级。

本节重点阐述信用风险建模(A卡)上的演进和创新工作。

A卡建模目前包括如下几方面:

确保策略的一致性,尽量减少人工干预,并利用机器学习的优势提升决策效率;

准确反映并量化用户的风险级别,策略人员可以控制和减少风险损失,因此对评分卡等级的排序能力、稳定性要求会比较高。

好坏用户定义:

是A卡甚至是互金大部分风控模型的最基础最核心的工作。对样本标签的定义,需要与实际业务场景、策略目标相一致,并综合考虑不同定义下的样本量。

比如在现金分期场景中,可以画一下用户回款率(或者滚动率)和逾期天数趋势分布曲线,用户逾期N天以后回款率或者滚动率便已经趋于稳定(梯度平稳),则可以N天以上逾期作为筛选坏样本的依据。在某些场景下,如曾经的Payday Loan,由于整个业务周期只有半月或1个月,为加快模型迭代速度,有时甚至会定义7+甚至1+逾期用户为坏客户。在一些银行场景中,出于坏账计提考虑,可能定义90天以上逾期为坏客户。

总之,好坏用户的定义不能纯靠人工经验,应该以场景的数据为基础,进行数据分析之后确定。

样本规模与算法演进:该机构的业务最早开始于2015年,模型进行了多个版本的迭代。下面的表格展示的是现金分期业务中A卡模型的演进。业务初期,样本数据量极少,往往根据相关业务经验确定使用的特征和规则;随着数据的慢慢积累,开始采用部分精细特征,使用简单的机器学习算法训练;当样本数据量积累到百万级以上,尝试采用神经网络算法进行特征自动提取或者end-to-end的风控模型训练;从18年上半年开始,升级到更加先进的迁移学习体系,未来会持续落地更多的前沿算法。风控模型优化的过程是紧随着业务从无到有、从小到大,数据量由少变多,特征由粗到细,模型由简单到复杂,效果由一般到突破的过程。

Fig . 6 现金分期业务A卡模型演进

模型的评估与监控:

模型建立后,需要对模型的预测能力、稳定性进行评估。

看模型效果不能只看KS,KS定义是从0-1概率之间好坏样本累计概率最大差值,实际应用中一般不会直接取这个阈值(cutoff)作为策略,因为在这种cutoff下,通过率可能会很低;风控不能不管业务,举个极端的例子,通过调整cutoff,风控几乎可以做到任意想要的逾期率,但这样通过率就会极低,造成前段的获客成本极高。业务规模会只停留在极少数资质优秀的客户。

所以评估模型时,基于风险的评估及基于业务的评估是必须的。因此,模型评估可分为三层:

第一层:机器学习模型评估指标。信用评分模型常用的评估指标为KS、AUC等。考虑到金融业务反馈周期长的特点,除了划分训练集、测试集外,通常会预留一段训练样本覆盖时间段之外的数据集,作为OOT(跨时间)测试集,以测量模型在时间上的稳定性;

第二层:风控层面,比如在不同bucket下,预测概率的排序性能;

第三层:业务层面的拦截率,通过率,逾期表现等。

基于上面的评估分层,监控方面也要做对应的分层监控,除了包含上述三个层面,还对输入到模型中的特征进行监控,比如特征的分布、波动率等。

贷前信用风险模型发展历程

经历过完全靠经验的规则模型之后,当积累了一定数据量时,便可以用少量的维度与数据开始训练模型了,当数据量较少时,使用简单的LR就能达到不错的效果。

随着数据量的不断增加,慢慢构建起了身份属性、消费能力、用户关系、信用记录、出行记录等特征,GBDT+LR,RF,XGBOOOST,LightGBM等更复杂的算法便可以派上用场了。

当数据达到一定规模时,采用深度学习来进行自动化表征学习或者end-to-end的风控模型学习,经过测试DNN,这个算法在同等情况下,和GBDT之类的算法性能类似,并没有太明显的效果,一方面说明GBDT这类算法在处理非图像、语音、文本这类局部结构并不是特别明显的数据的优势,另一方面说明,不能直接将CV\NLP领域的算法拿来用,需要做一定的改造和优化,因此后期陆续使用和改造了ResNet、FractalNet等网络结构,相比于DNN和GBDT模型效果有比较明显的提升;再进一步,通过分析风控这个场景,发现通过审批的用户与开放自然流量的数据分布差异比较明显,这一现象,基本打破了传统监督学习中训练集和预测集数据分布相似的假设。为解决这个问题,引入迁移学习框架,同等逾期条件下,通过率能明显的提升。

Fig . 7 A卡V1-LR模型

Fig . 8 A卡V2-GBDT模型

Fig. 9 A卡V3-DNN模型

Fig . 10 A卡V4-分形网络模型

Fig . 11 A卡VX-迁移学习模型

贷中反欺诈模型

贷中反欺诈按粒度可分为两类,用户级与交易级。用户级粒度相对粗一些,即断定当前客户为欺诈客户,可能的策略就是不允许欺诈用户在平台上发生交易行为;交易级是较细粒度的,即根据交易上下文、IP、设备、地域判断当前交易是否为欺诈交易,如果是,即不允许客户进行此笔交易。

贷中反欺诈有3个难点:

① 长尾分布:欺诈用户其实是极少的

② 对抗性显著:欺诈用户会想办法找出系统及规则的漏洞

③ 模仿正常行为:欺诈用户会利用伪造消费流水,前期正常还款等行为等,让金融机构放松警惕,当提额到一定程度后,便开始逾期。

在反欺诈领域,除了使用一般的机器学习模型,也构建了一套基于社交网络的模型体系。

社交网络在风控模型中的应用

基于社交网络的反欺诈,思路很简单:物以类聚,人以群分。

比如一个欺诈分子,可能与其有关系(在Graph上表现为有直接的边连接,这种也称之为一阶亲密度;或者通过边的游走能够触达,这种称之为多阶亲密度),那么可能这些与之有关系的用户也是欺诈分子。如图所示,通过梳理生态内关键实体、关系,首先构建了一个庞大的异构社交网络,该网络包含10亿级别的顶点,50亿级别的边。接下来是通过算法,发现社区(Community)。

由于社交网络的数据量相对来讲是比较大的,因此在算法层面,对运算效率要求也是比较高的,同时对于社区划分的稳定性有一定要求。在实际落地中采用LPA、改进的Louvain,实现T+1的社区发现。最后基于划分的社区,可以获得社区的各种属性统计,这个作为反欺诈策略的重要参考。当有一个用户到来的时候,看其属于哪个社区,根据改社区的属性确定该用户是否为欺诈用户。

目前在实际应用中,基于社交网络的风控指标体系已经覆盖了贷中80%的贷款请求,同时通过社交网络,挖掘关系人一度或者多度关系,对严重的逾期行为,通过多度关系进行催收,提升回催率。

Fig . 12 关系网络

Fig . 13 社交网络应用的基本流程

风控趋势

目前国内的征信体系、大数据体系和数据环境还在逐步完善中,各种数据的质量、可靠性也各不相同,参差不齐,这对于模型能力和技术能力带来很大挑战。一方面,需要有收集、整理、汇总海量数据的能力,另一方面也要有识别、清洗“脏”数据,检验“沙里淘金”的能力。这是基于目前国内的数据可获得性,互联网生态环境而言,在电信运营商底层数据挖掘分析领域,金融风险控制的探索之路会成为一种趋势。

三大风险、两大审核机制、六大风控产品

一、三大风险

根据风险标的及场景不同,这类内容型产品的风险主要分为三类:账号风险、内容风险和数据隐私风险。

1)账号风险主要从虚假用户识别、恶意注册以实名认证等维度设计风控策略。

账户体系风控是拦截羊毛党黑产的第一道关口。某些创业公司为刷数据融资,私下里会和羊毛党串联起来刷注册量、刷订单以及活跃度等指标,这是饮鸩止渴的做法,不在本文讨论范围内。

2)内容风险主要从牌照、版权等资质条件,以及文字、图片以及视频三大维度的进行风险管控。

传统媒体从事新闻资讯和视频节目,需要有《互联网新闻信息服务许可证》、《网络视听节目许可证》等牌照。是否具备相关牌照也是平台内容风险的一部分。道路千万条,合法经营第一条。经过这么多年发展,以头条和一点资讯为代表的聚合类资讯平台已经解决了牌照问题,版权问题也不再是障碍。

内容本身的文字、图片和视频是风险管控的重点。

以头条为代表的资讯聚合平台本身不产生新闻资讯,但是通过算法平台进行分发触达消费者,一样需要承平台应有的责任。虽然头条通过收购曲线拿到视频牌照,解决了牌照风险,但是短视频爆发得太快,如何在牌照庇护下做好视频内容管控,是头条类企业面临的新课题。

上文中,引发监管出手的主要是内容风险,即APP里出现政治敏感词汇、黄赌毒或者不当时政新闻内容。在发展初期,APP用户少的时候还能进行用户审查和内容管控,随着用户爆发式增长,在推崇算法至上的企业里,天真认为技术是中立的,算法无罪,任由大量黄赌毒垃圾内容饲养算法和用户,最终走向失控的局面。

在人工智能和算法为王的信息时代,还是要为算法划一道底线,知道安全边界在哪里。同时,「人工」的作用不可小觑,在头条和快手里出现了很多代表中央声音的部级媒体大号,AI算法在人的干预下,给与了置顶权限和流量倾斜,以便传播时代声音,弘扬社会正能量。

3)数据和隐私风险包括爬虫反作弊机制、数据加密和防黑客攻击等技术风险防范。

时间回放5年前,头条刚起来的时候被几大媒体围攻,头条爬虫无授权抓取其他媒体平台内容到自家平台,涉嫌侵权违规,这在一定程度上暴露了传统媒体对内容信息保护不够,反爬虫能力不强的弱点。

网贷市场上有很多针对天猫、京东和点评商户的贷款产品,这些企业通过爬取天猫、京东和美团的商户数据去做营销或者贷款服务,电商平台的数据反爬机制建设任重道远。电商场景的风控除了数据反爬取,更多是营销风险,以后文章详细介绍。

最后,用户在平台进行注册填写了个人信息,平台有责任保护用户隐私数据不被泄露,每年网上都有爆出某某平台用户数据泄露在黑市交易。在与黑产对抗的过程中,平台要投入资源加强风控安全体系,做好反爬虫反作弊措施。

二、两大审核机制

审核机制包括系统自动过滤和人工审核两大模块,针对商户bgc和用户ugc平台,首先使用系统自动过滤敏感内容,系统无法有效识别判断的在进行人工审核,这是常用的用户和内容审核风控流程。

在UGC机制上, 有以下几种策略进行风控控制:免登录发言、注册登录后发言、匿名发言、实名认证后发言、账号粉丝/注册时间超过一定限制才能发言、专家身份认证后发言、直播聊天室主持人控麦发言等维度。

目前大部分平台都要求注册登录通过手机号认证后发言,手机号注册通过后,借助运营商渠道完成弱实名认证,这也是视频、社交类平台主流的账号体系实名模式。手机号弱实名认证有很多漏洞,平台的反作弊风控策略拦截效果一般。

黑产羊毛党手中专门提供手机号的卡商,猫池卡池养几千万张卡,很容易弄到一套低成本的手机号实名信息。网络水军和职业差评师是这类黑产卡商的大客户,地下黑产羊毛党产业链有严密的分工流程和组织体系。

如果涉及交易支付环节,银行卡四要素实名是安全性更高的实名认证模式,作弊成本比手机号实名高几倍,但是这只在电商平台才用得到。ugc类平台为了降低发帖门槛以保证用户体验,很少要求强实名认证。

从用户注册登录,到发布新闻资讯、评论和视频等内容,主要的审核环节包括:昵称、头像、实名、ugc产生的资讯文章、链接、图片和视频。新闻资讯、评论和视频点播要求贯彻先审后播的政策。这类产品形态可以执行【事前预防/审核-事中及时阻断-事后复核追溯】的完整风控流程。

对于直播,只能做到【事中及时阻断——事后复核追溯】,所以直播类应用面临的挑战更大,更需要严把主播资质审核关口,避免出现直播中出现「黄鳝门」这种涉黄涉暴力事件,直到舆情爆发直播平台才后知后觉介入收拾烂摊子。

在审核流程上,有以下几种风控处理机制:

1)删除敏感文章、图片和视频。常见于很多微信公众号作者,容易被和谐。

2)对用户禁言,禁言时间根据严重程度设定。常见于社交平台和聊天室。

3)永久封禁账号,销号处理,对于平台来说这是比较严重的处罚,比如咪蒙。

三、六大风控产品

设备指纹、滑块验证、实名认证、黑名单库、敏感词库、半监督机器学习算法,共同构建强大的反作弊反垃圾智能风控平台加以应对。

1)设备指纹

设备指纹是指可以用于唯一标识出该设备的设备特征或者独特的设备标识,可以精准识别设备,识别风险设备,对设备进行聚集性、相似度等综合分析 。

设备指纹主要包括如下信息:设备IMEI码、Android_ID、序列号、SIM卡号、IDFA码等,是反作弊反欺诈风控模型的重要变量,这些是暗面数据,不需要用户填写即可完成采集。

用户感知层面,如果在常用手机上开通了支付宝免密支付,正常环境下是可以支持使用的。如果换一个设备,或者地理环境、网络环境发生变更后,需要输入密码或者手机验证码重新进行安全校验,就是因为设备指纹信息变了,触发了支付宝风控规则。

2)滑块验证

滑块验证属于验证码的一种,是人机识别反作弊的关键一环,主要用在新用户注册、登录以及风控引擎判断为风险操作的环节。很多政府网站可以免登录查询相关数据,比如企业信用信息公示系统,为了防止被爬虫大量爬取数据,也会增加验证码环节,提高数据爬取成本。

简单的数字验证码、图形验证码容易被爬虫攻破,前几年网上比较火的12306的图形识别验证码被很多用户吐槽难以识别,但也是可以利用深度学习算法破解的。笔者也曾做过相关爬虫产品,难点在于需要持续维护成本,验证码策略变更或者网站改版都需要优化代码。

目前最难攻破的应该是复杂的滑块验证码,对爬虫算法要求较高,人工智能投入不划算。机智的产品经理想到了最简单的办法:人肉破解验证码——人工打码平台,羊毛党把需要识别的验证码通过API接口传给打码平台,打码平台把验证码分发给很多网络上的兼职众包人员,人工识别出结果后返给羊毛党,完成了验证码的人工破解。

3)实名认证

实名分为弱实名和强实名,弱实名一般指校验姓名+身份证号码,通过运营商手机号验证即可,此种方案默认运营商已经做过实名。单独的姓名+身份证号码一致性校验,接口成本不到1毛钱。

强实名最常见的就是银行卡四要素校验:姓名+身份证号码+银行卡号+银行预留手机号,通过绑卡即可完成实名认证,校验要素越多,实名认证约可靠,因为提高了羊毛党作弊成本。

除了自然人实名,很多有商户入驻的平台还有企业实名,比如天猫京东的第三方pop商户入驻。五证合一后,企业实名主要校验三证:工商营业执照、税务登记证、组织机构代码证。同时,为了确保安全,可以要求企业上传银行开户许可证、法人身份证件等信息作为增信资料。三证合一换领了统一社会信用代码证的,校验统一社会信用代码和企业名称、法人姓名以及法人身份证号是否一致,即企业四要素验证。

市面上很多这样的校验接口,在京东万象数据超市可以找到,成本比个人实名贵,企业四要素接口大概一块钱一次。

4)黑名单

黑名单是比较常见的风控产品,具体细分类型有失信名单、金融疑似欺诈、信贷不良、多头申请和地址黑名单等维度。可以积累自身数据源,加上市面上第三方提供的黑名单数据,做多重验证。

对于内容型产品,主要用于在账号注册环节,可以根据手机号、身份证号码、以及设备id维度交叉验证查询黑名单,从源头上自动拦截羊毛党黑产入驻。

5)敏感词库

敏感词库用于过滤ugc内容,通过NLP自然语言分析是否有敏感内容,实现系统自动过滤,主要针对文字内容。如果为了防止误杀,还可以在敏感词上面加一层过滤词,命中敏感词的系统自动删除。命中过滤词的做风险提示,有人工介入处理决定是否删除。对于重视评论和发帖的论坛,封杀风控策略过严会影响某些部门的KPI完成。

对于图片形式的过滤,比如头像,以及视觉中国事件里,创始人柴继军回应的图片上传审核有问题,可以使用ocr识别技术自动识别图片内容,然后结合机器学习算法和相关数据,判定图片是否违规。

对于小公司,如果没有图像识别开发实力,可以采购图片鉴黄违规识别接口,单次成本不到一毛钱,为了避免广告嫌疑,此处不再粘贴接口链接地址。

6)半监督学习算法(Semi-Supervised Learning,简称SSL)

随着人工智能的发展,机器学习算法广泛应用到智能风控领域。算法是需要数据饲养的,根据数据样本是否标记,分为:监督学习、半监督学习和无监督学习三种算法模型。监督学习数据样本全部需要人工标注,成本较高并且数据量级有限。无监督学习使用无标注数据样本进行机器学习,不便于提升学习效果。

人们尝试将大量的未标注数据样本加入到有限的有标注数据样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了半监督学习算法SSL。

目前介绍了常用的六个风控产品,在复杂的风控架构里肯定还有很多没有提到的新产品新技术,反作弊反垃圾风控体系建设是一项长期复杂的工程,风控能力即使十分强大,也难免有黑产羊毛党找到漏洞入侵。风控的本质不是要100%消除风险,而是要在一定成本下最大限度控制风险并止损。

风控资源的投入,要取决于每家机构对风险的重视程度,在互联网强监管时代,很多内容驱动型机构都加大对风控的投入,以降低公司整体运营风险。

来源:数据分析通达未来

  • “保理+供应链”融合赋能服务模式怎么做?

  • 天津易通保理:鲁商供应链“鲁商信”

  • 融和云链:数字化赋能下的集团金融生态系统

财经自媒体联盟 更多自媒体作者

今日推荐 优秀作者 看点月榜
新浪首页 语音播报 相关新闻 返回顶部