李昊:越隐秘的数据采集越不容易被欺诈

2015-04-16 16:07:50 来源:金融界网站 作者:江欢

1

Wecash闪银联合创始人 李昊

    金融界网站讯 4月16日,2015年互联网金融投资与并购大会在北京中关村(行情000931,咨询)国家自主创新示范区展示交易会议中心举行,金融界网站全程直播此次会议。

  Wecash闪银联合创始人李昊分享移动互联网大数据信用评估实践。

  以下为会议实录:

  李昊:大家好!我是来自Wecash闪银,非常感谢这次机会跟大家做一个分享,Wecash闪银是一个非常年轻的公司,到今天差不多刚好满一周岁的样子,闪银是一小部分做小微金融的草根,和一大批的互联网极客公司的创业公司。

  2013年的时候我们在想两个问题,第一个是随着互联网,特别是移动互联网大潮的推进,越聚越多的人在使用智能手机,2014年年底时候中国有6.18亿的互联网网民,越来越的数据在网上生成,并且沉淀在互联网上面,考虑用互联网和移动互联网的数据来给用户做评估,这是第一点。第二,从线下获取小微金融客户的方式有非常高昂的成本,我们考虑利用移动互联网粉丝营销的模式,降低小微金融的复合成本。

  为了解决这些问题,我们创办了闪银这家公司,闪银的业务模式有C2B2B,之后我们会把一些用户对接到线下的P2P平,消费金融公司,小贷公司,以及一些共享经济的场景中,比如说租房和租车,让这些服务商能够给一些用户提供与信用相关的服务。

  今天时间比较有限,所以我就不按照PPT跟大家讲了,下面主要讲两点,一个是我们在利用移动互联网数据做信用评估上面所注重的一些地方,另外是在货客方面的一些经验。

  首先我们做了四个结合,第一个结合是线上和线下的结合,一般我们讲狭义的信用反映的是借贷过程中客户的行为表现。因此传统的金融业务中,主要还是依靠信用交易数据,比如说央行征信的报告,对用户进行评估。其他的数据可以对信用数据进行有效的补充。还有一点我们有很多的用户,是没有任何信用记录的白户。中国有8亿人在银行是开户的,目前为止央行的征信只覆盖了3亿多人,有4亿多人的白户的存在。为了做这些客户,传统一些业务中的数据主要依靠线下获取的模式,主要是一些流水和资质认证,现在在一个较窄的范围。

  随着移动互联网的发展,为线上的数据获取创造了机会,闪银通过公开的一些API,网络爬虫,获取了用户在线上的数据,除了线上交易数据以外,还包括用户在BBS社区,还有地方性网站发布的这些信息,以及用户相关的报道文献。将这些信息通过数据挖掘之后,可以形成数据画像,反映这个用户的教育背景,消费水平等信息。单纯依靠纯粹线上数据来做风控,也会存在一些实名的征信较差,为了克服这一块,闪银将线上和线下的数据进行结合,首先第一点我们通过做了一个社交网络的结合,线上的社交网络大家熟知的微博和微信,线下的社交信息是来源于用户的通信记录,我们将两方面的社交网络构成一个大的社交网络。基于这些社交网络,实现线上数据的一些实名,另外我们有一些合作方是线下的教育培训机构,旅游机构,还有一些零售机构,通过这些获得线上和线下的数据进行交叉验证补充。

  同时还有一个非常重要的数据将线下和线上的数据打通,通过用户授权之后的GPS的定位,还有基站可以获得用户线下的位置信息,同时实现对用户画像更为精准的刻划。

  第二个结合是主动数据和被动数据的结合,我们在使用数据的时候,我们通过网络爬虫去爬取的数据,大部分是用户主动发布的信息。比如说他需要办一个大额的信用卡,有的用户积极回复一个帖子。这些数据是用户主动去发布的,如果用户不主动去发布,这些信息就没有了,就无从判断。在实际业务中我们会发现做销售业务的,或者公司的高管会有大量的互联网信息暴露度。

  为了弥补很难发现的一些信息,我们采用了一些被动的数据,无论你愿意与否,只要使用互联网,就会有留在网上的数据,一部分是运营商的流量的数据,还有来自于DSP和DNP厂商的数据。基于这些设备的数据,可以增加数据的覆盖面,解决一些偏差的问题,使我们的模型和策略有更好的预测和推广性。

  主动和被动还有另外一层含义,就是可不可以被用户感知到,在传统的业务上,用户在填一个申请表的时候,他会感觉到你在采集他的信息,有一些别有用心的欺诈客户,他会刻意粉饰自己的数据,让自己看上去比较OK的人。比如说用户填写信息时候的录入时长和回删的次数,以及用户的一些设备ID,IP的信息,这些信息相对来说比较不容易被感知和伪装,就增强了信用变量的有效周期,并且也提高了一些抗欺诈的能力。

  第三个结合是个体和群体的结合,以前做小微金融的时候,我们总说要做大数定律,把金额拆散,一个假设就是一个个体和另外一个个体,在违约行为上的概率彼此之间是相互独立的,随着互联网社群的发展,对原有的大数定律有一定的挑战。我们在这里就把一些基于社交网络的数据,应用在其中,通过刚才我提到的把线上和线下结合的社交网络,把用户划分为相应的群体,我们认为在过程中一个长度上,个人的行为是有传染性的。

  最后一个结合是贷前和贷后的结合,因为我们现在做的主要是基于消费金融场景和信用贷款场景的风险评估,这里面以前总是讲说我们要把风险关在门外,这其实反过来讲,恰恰也表明了一旦信用贷款放出去,客户不管,追偿的方式就会有很多的限制。而整个信用评估是横跨整个信贷周期的,我们以前在做信用贷款的时候,我们对于用户贷后的监控,一般是以月为单位,一个月进行一次访谈。随着移动互联网的出现,让贷后的监控扩展到全天候24小时,我们会对用户的行为进行相应的监控,第一时间做出预警和响应。同时可以有效去寻找一些客户,传统先下做消费金融的时候,我们会面临一个问题,用户怕失联,额度比较低,只要能找到这个用户就把钱还了,很多时候是找不到这个用户在哪。借助于移动互联网可以找到这个用户,比如有一个用户借完钱之后,换了工作,跑到另外一个城市,我们的合作伙伴贷后部门根据微信找到新的办公地点,就联系到了,他就立刻把这个钱还了。

  通过这种构建,我们现在也在做一些黑名单的信息共享,提升整体用户的违约成本,有利于构建良好的信用氛围。我们明显感觉到我们应该辩证来看这个问题,大数据在做风控上有它的优势和烈士,从根本上来说,风控是在一个开放的空间所解决的问题,不存在一个风控数据的B区间,我觉得我拥有这样的数据,就没有问题了,是不存在这样的。大数据正好是扩充信用评估数据的边界,对传统信用的评估是一个强有力的补充。所以我也希望我们这些从业者能够比较辩证的方式去看这个风控,现在业内有一些是反大数据,或者是唯大数据论的,这些都不是相对的科学。

  大数据在风控的优势是覆盖面广,更新比较迅速,用来反欺诈和监控,同时在用户缺少传统数据的时候,可以起到一定的替代作用。

  劣势主要在于有效数据的密度比较低,像交易这些数据都是中性的,和客户之间信用关联没有那么强。所以在使用这些数据的时候,第一步需要沙里淘金,我们需要从大量的数据里面挑选出相对来说风险比较强的变量。第二,要经过多维的关联,单一维度的风控数据不强,组合在一起就产生了具有较强风控的数据。

  还有数据缺失比较严重,目前提供大数据的来源,就算是某宝,他的覆盖率也不可能覆盖所有的用户。在做建模的时候,基于逻辑回归这样的一种方式,实际上对数据带有分布性假设的,这样就会失效。解决这个问题,闪银采用了三种方法,第一种方法是选取我们分布假设依赖度比较低的方式。再就是通过短期的快速迭代,做客群的细分,保证客群相对比较完整的。再就是不断充实数据的来源,不同数据来源之间的逻辑相关性和替代性,因为有很多的数据彼此之间内涵的逻辑是类似的。

  第三点就是反欺诈和隐私保护的一个博弈,越隐秘的数据采集越不容易被欺诈。因为时间的关系,我今天就分享到这里,谢谢!

关键词阅读:互联网金融 P2P 风控 数据

快来分享:
评论 已有 0 条评论