主管:商务部中国国际电子商务中心
当前位置:资讯首页 > 信用知识 > 正文
    
研究 | 征信视角下的替代数据应用研究
2020-05-26 09:28:14 来源:源点credit

从完善征信服务体系建设入手,阐述替代数据产生的背景与定义,比较分析我国征信系统、征信机构等四类不同平台替代数据的采集范围、价值及存在的问题,提出相关建议,为我国征信服务体系的顶层设计和政策制定提供有益参考,以进一步发挥征信服务效能,助力普惠金融发展。

引言

现代征信体系是现代金融体系的基石,是实施货币政策、进行宏观审慎管理的基础,也是保持金融稳定和防控金融风险的前提条件。一个国家如果具有完善的现代征信体系,就标志着该国市场经济和现代社会治理体系已经走向成熟。

目前,我国形成了“政府+市场”双轮驱动的征信发展模式,征信体系建设逐步完善。

征信系统对全国范围内持牌金融机构的业务全覆盖,截至2019年底累计收录了10.2亿自然人、1268万户企业和其他组织的有关信息,个人和企业信用报告日均查询量分别达657万次和30万次,广泛应用于金融机构的贷前审批、风险定价和贷后风险管理等环节。

世界银行《2020年营商环境报告》显示,我国已连续第4年获得信用信息指数满分,领先于部分发达国家。该指标反映了从公共或私人征信机构获取信息的难易程度以及所获信息的范围和质量。

然而,据不完全估计,我国“征信白户”群体仍高达4亿多人。该群体未曾与银行等金融机构发生过信贷关系,信贷状况空白,银行无法以此判断授信与否,如大多小微企业、农民、刚毕业的大学生和低收入人群等普惠群体,因信息不对称难以享受正常的金融服务。基于上述现实,实践者们迫切寻求扩大信息采集范围、减少信息不对称的可行性。

如利用阿里巴巴旗下蚂蚁金服平台上积累的大量网络用户和商户数据,包括交易数据、第三方支付、信用卡还款以及物流信息等重要数据,还有用户自主上传的数据及合作伙伴回流数据等,依靠这些数据刻画出个人信用状况。在采集信贷信息基础上,辅之以能反映债务人偿债能力与意愿的其他数据(即“替代数据”),能扩大征信服务范围,提高服务水平与能力。

一、征信领域的替代数据

(一)替代数据的定义

替代数据(AlternativeData),也叫非传统信息(Non-traditionalInformation),由美国最早提出并开始进行市场应用。美国政府问责局(UnitedStatesGovernmentAccountabilityOffice)在报告中①将其定义为“信用报告机构使用的,用于计算信用分数的非传统信息”。以此为例,我们可以从以下三个维度来理解其含义:

(1)替代数据的使用者——信用报告机构。

(2)替代数据的使用目的——用于计算信用评分。

(3)替代数据的范围——相对于传统数据而言,更加广泛而不局限于金融类。由此可以看出,替代数据与传统数据具有相同的使用者和使用目的,区别在于前者的范围更广,突破了传统的金融类数据界限。

事实上,替代数据正是作为传统数据的补充而存在的。

综上所述,结合我国实际,我们认为,替代数据是指由征信机构和数据服务机构等收集并进行加工整理的、用于放贷机构授信决策的、在传统的借贷信息采集范围之外的其他信息。

(二)替代数据的采集范围

目前,由于各国经济金融环境存在差异,同类信息的采集难易度、用于信贷决策的价值不一,因此替代数据的采集范围和内容存在差异。一般来说,替代数据具备以下8类性质(见表1)之一:

一是与需要定期付款的非贷款产品相关的付款数据,如电信、租金、保险或公用事业缴费;

二是账户交易和现金流量数据以及有关消费者资产的信息;

三是与消费者稳定性有关的数据,如职业、住址等更换频率;

四是消费者基础信息,如教育程度、工作岗位等;五是消费者资质信息;六是消费者行为信息,如网络交互行为;七是消费者交往信息;八是其他相关信息。

表1替代数据采集范围

目前对替代数据的采集范围与内容尚未明确统一,各地根据实际采集。

(三)替代数据与传统数据等的区别与联系

1.替代数据与传统数据的区别与联系传统数据:

是指各类放贷机构等因借贷业务产生的信用信息,反映债务人的负债状况与历史还款行为,涵盖了银、证、保等金融机构,小额贷款、融资租赁等类金融机构,以及随着互联网金融发展兴起的互联网金融机构,这些数据规范性强、特征明显、可利用价值高,是判断申贷者信用状况的主要数据来源。

而替代数据主要是指信贷信息之外的、有助于放贷机构判断申贷者偿债能力与意愿的辅助信息,这些数据规范性相对较弱,采集较难,可利用价值不一。

如蚂蚁金服旗下的花呗从支付宝、淘宝、天猫、芝麻信用及相关外部机构等采集个人身份信息、交易消费数据、工商及司法数据等,判断其还款能力与意愿,发放小额信用贷款;通过采集企业水电气话付费信息,能了解企业日常生产经营状况,费用较高的企业一般认为具有较好的资产与经营状况,放贷机构更倾向放贷。

一般来说,传统数据的价值比替代数据高,当结合两者时,价值最高。

2.替代数据与诚信、大数据的区别与联系信用有双重含义:

一是与借钱还钱有关的、可度量的经济交易活动,表现为以延时偿付方式获取所需资金,这种信用产生的信息特称信用信息。

二是指人们在言行上信守承诺,一般不涉及经济交易,价值难以衡量,产生的信息特称诚信信息。

征信采集的正是信用信息,用于预测一个人在非即付且无抵押的经济活动中是否守约。而替代数据作为征信信息的一部分,其与诚信有区别,如电信缴费和闯红灯,前者属于征信替代数据范畴,后者属于道德范畴。部分替代数据具有先消费后付款特征,属于信用信息。

大数据是指利用互联网技术,将分散各处的数据收集汇聚起来,形成海量数据,并服务于特定人群,而征信采集遵循的是“最低、适用”原则,无意采集信息主体所有信息。利用大数据技术得出的是数据的相关关系,而替代数据强调的是与合同、契约有关的因果关系。

二、我国替代数据采集与应用情况


(一)征信系统替代数据采集情况

目前,征信系统采集的替代数据主要有三类:

一是履行相关义务的信息,包括社会保险参保缴费信息、住房公积金缴存信息、车辆抵押交易信息等;

二是后付费的非金融负债信息,主要有电信等公用事业缴费信息;

三是公共部门的相关信息,包括获得资质信息、行政处罚与许可信息、获得奖励信息、执业资格信息、法院判决和执行信息、欠税信息、低保救助信息等。据统计,截至2019年1季度末,征信系统共接入非金融机构800多家,收录的电信缴费和欠费信息4000多条,企业税费缴纳信息1万多条,企业用电信息1000余条。仅2018年,全年共采集9.54亿条非金融信息,同比增长16.8%。

以征信系统采集浙江省替代数据为例(如图1所示),中国人民银行征信中心与浙江省电信、住房公积金等部门建立总对总报送机制,同时采集社保、融资性担保等信息。

截至2019年8月末,征信系统采集浙江省电信、社保等信息共2147.17万条,与5.57亿条信贷信息账户数相比,占全部数据量的3.85%。在这些替代数据中,占比最大的是公积金账户信息,占比为41.21%,其次为社保和融资性担保信息,电信账户信息占比最少,在1%以下。

图1征信系统采集浙江省替代数据情况

(二)征信机构替代数据采集情况

截至2019年底,我国共有企业征信机构128家,个人征信机构1家,对推动征信数据、产品和服务在金融及社会治理领域的广泛应用起到了极大的促进作用,与征信系统形成有益互补。

以浙江省为例,目前共有已备案企业征信机构6家,在采集替代数据以缓解银、企信息不对称,服务小微和民营企业融资发展方面,进行了有益的探索尝试。

如义乌中国小商品城征信有限公司与政府部门及事业单位建立合作,采集近50万个市场主体的信用信息9945万余条,累计查询17.9万次;杭州有数金融信息服务有限公司建设的“绿贷通”平台实时采集浙江省大数据管理局、湖州市大数据中心及有数金服部分企业数据,实现“一站式”查询,银行支持小微企业效率大幅提升,目前已累计帮助8494家小微企业获得融资728.8亿元;浙江汇信科技有限公司建设的“信用宝”平台基于工商及其他部门数据,精准筛选出可扶持对象推荐给银行,目前已对接38家金融机构,促成融资64.6亿元。

(三)地方征信平台替代数据采集情况

目前,多地建设有区域性的地方征信平台,采集共享政府部门、公用事业单位掌握的小微企业注册登记信息、资质许可信息、行政司法处罚信息、水电气话等公用事业缴费信息等替代数据,缓解金融服务中的信息不对称问题。

以浙江省企业信用信息服务平台为例,平台与省、市数据资源局沟通协调,实现了严重违法失信企业名单、省环保厅处罚和省级科技型中小企业信息等信息的实时接口联机查询,并将信息整合提供给金融机构查询。截至2019年9月末,平台累计采集工商、税务、电力等11个部门224.8万户企业共1.5亿条信息,已在全省包括工、农、中、建等22家金融机构进行使用,累计开通用户近1万个,查询73万余次。

(四)数据服务机构替代数据采集情况

目前市场上存在较多数据服务机构,数据服务机构是未备案的、从事数据收集并对外提供有偿服务的机构。数据服务市场的数据来源广泛,部分是可靠、已知的数据源,部分来自于网络爬取、挖掘得到的灰色数据,数据质量不一,可能会造成市场征信乱象,给信息主体权益造成损害。

以浙江省为例,据调研,目前省内有23家金融机构应用第三方(征信系统除外)的数据产品和服务,涉及合作的数据服务机构23家,这23家数据服务机构中共有18家提供个人数据服务。

从服务类型来看,数据服务机构向金融机构提供的数据服务主要可分为4类:一是公共信息查询,主要包括企业涉诉信息、个人社保信息和公积金信息;二是房产信息查询,包括抵押信息和查封信息;三是个人身份核验服务,为个人姓名、身份证和手机号三要素核验;四是个人欺诈、多头信息查询。

(五)我国替代数据应用情况

替代数据的应用状况因申贷者类型不同有较大差异。当服务对象为信贷历史丰富的申贷者时,如大中型国有企业以及有丰富银行信贷历史的个人,金融机构一般通过查阅信用报告方式,获取其历史信贷信息,做出授信决策。当服务对象为“征信白户”群体时,仅凭借信用报告无法做出授信判断,金融机构往往根据申贷者的不同特点,通过实地考察、相关部门合作等方式,应用与之密切相关的替代信息进行判断,不同申贷者往往需要不同类型的替代信息。

对于区域联系紧密的申贷者,通常为当地小微民营企业,银行通过实地走访、侧面了解等方式,了解企业生产经营状况,主要包括企业对账单、海关报表、发票开立情况、房产信息等,当申贷者为个人时,还会了解个人的多头借贷情况,据此做出授信决策。

对于存在关联的群体,如集团合作对象等易获得相关信息的申贷者,通过集团信息共享了解其相关情况,典型的有淘宝和天猫的商户,网商银行通过共享蚂蚁金服集团下支付宝、淘宝、天猫、阿里巴巴中文站/国际站以及外部机构的相关数据,包括商铺线上的成交量、发货量及销售收入等,线下能反映经营状况的水电气话等,综合衡量其还款能力与意愿,以此做出授信决策。对于农户等普惠群体,主要通过与当地政府签署合作协议,了解相关涉农信息,如普惠信誉、农户社保情况、土地情况等。

(六)我国替代数据采集与应用中的主要问题

1.个人信息保护立法层级低,权利救济渠道缺失

信息保护方面,相对企业信息而言,个人信息具有较强的隐私性和敏感性,应受到严格的立法保护,目前我国在该方面仍有待完善。

一是相关法规效力较低,我国还没有出台《个人信息保护法》来对个人信息以及个人金融信息的隐私权、知情权、支配使用权、维护权进行全面保护。《征信业管理条例》是我国当前征信领域的行政法规,效力层级低于法律。

二是信用信息财产权益未受法律保护。替代数据中部分为信用信息,具有隐私权和财产权双重属性,目前我国法律只承认信用信息的人格权,如隐私权、同意使用或异议更正权等,即使造成损害,也只能通过侵害隐私权诉讼要求赔偿,未承认信用信息的财产权,如信用信息被泄露、倒卖的经济赔偿权利。

此外,目前个人信息不仅包括隐私的信息,还包括非隐私的信息,通过非隐私的信息进行数据画像,是否可以要求侵权赔偿,目前没有规定。

2.数据服务机构大量存在,监管盲区导致征信市场乱象

目前市场上存在着较多从事数据服务但游离于监管之外的数据服务机构,对这些机构业务中涉及的信息的采集、整理、保存、加工和提供没有明确的规定,存在很大的侵害信息主体合法权益的风险。集中体现在三个方面:

一是数据的所有权和使用权问题。目前制度上对于数据的所有权和使用权没有清晰的界定,部分机构在与数据源进行合作的过程中获取数据并对外提供服务,其合法性有待商榷。

二是网贷数据的采集问题。目前,市场上部分网贷机构游离于监管之外,尤其是P2P等网贷平台,本身的合法性难以保证,从这些机构采集数据的合法性也相应地无法保证。

三是个人行为数据的采集问题。部分机构通过爬取、跟踪、定位等技术手段,获取大量的个人线上行为数据,通过建模找出不同风险程度的个人行为特征,并对外提供服务,在此过程中,个人行为数据是否涉及个人隐私,技术手段获取的数据是否属于依法公开或自愿公开的数据均无法确定,比较典型的如欺诈方面的数据服务。目前我国尚未有明确的监管部门对此类机构实施监管,致使此类机构游离于监管之外,尤其是这些机构的业务操作是否合法合规、是否侵害信息主体合法权益并不明确。

3.数据采集标准尚未建立,数据质量难以把控

目前,我国替代数据尚未建立统一的数据采集和处理标准,对数据采集的边界尚未厘清,且在基础环节会经常出现数据录入错误、信息缺失、冗余重复、信息主体不明等问题,数据质量难以把控。

此外,我国数据共享机制尚未建立,数据采集场景割裂导致信息孤岛现象严重。比如,水、电、煤、纳税、社保、公积金等社会公共信息主要集中在行政部门及公共事业单位,采集难度较大;阿里、腾讯、京东等互联网巨头产生的大量替代数据,因将其作为核心资产,共享较难。同时,由于缺乏专业的数据提供商或交易平台,从网络爬取数据成为获取数据源的重要途径,数据呈碎片状态且难以保证数据的连续性。

三、相关建议

(一)加强立法,完善信息主体权益保护机制

加强立法,使信息主体权益保护有法可依,完善权益保护机制。

一是加快基础性法律和行政法规的立法进程,制定《个人信息保护法》等作为上位法,提高信息主体权益保护的立法层级,明确个人信息所有权以及转让范围。

二是建议从法律层面承认信用信息的财产权益,即规定个人信用信息的维护权能,当信息主体相关权益被侵犯时,可以要求停止侵害并赔偿损失。此处指民事赔偿,而不仅是对侵权者进行罚款或要求其承担刑事责任。

三是完善《征信业管理条例》,纳入个人非信用信息采集与使用规范,同时保障信息开放共享与个人权利保护的平衡,特别是考虑互联网金融及信息技术背景下的个人非信用信息保护与需求的可扩展性。四是建立个人信息互联网采集授权制度,明确互联网各平台对个人信息的采集范围,详细列举具体授权事项,保障用户的知情权和选择权,防止个人信息被过度采集,避免信息不当使用或未经授权提供给第三方。

(二)搭建分类监管、行业自律相结合的协调机制

针对由于数据服务商的存在而出现的监管缺位问题,应在立法保障的基础上,建立多部门协同监管体系,树立全产业链的监管理念,整合监管资源,对信息的采集、整理、加工、使用等各个环节进行全流程监管,强化合规监管渗透力,加大违规惩戒力度,全方位加强对信息主体权益的保护。

一是按照行为监管理念,建立人民银行、工信部、公安部等多部门的协同监管体系,明确部门监管重点,推动建立协同监管机制,提高监管的针对性和有效性,弥补监管交叉与空白的不足,严把征信机构市场准入,加大对非法采集、泄露、买卖个人信息的问责和处罚力度。

二是充分发挥行业协会的协调沟通作用,开展内部安全认证和行业自律机制建设,建立信息采集机构内部的纠纷处理机制,完善信息异议处理解决机制,同时确保自动化处理技术在方法、流程等方面公开透明,保障信息主体享有查询数据权与异议声明权等。

(三)明确替代数据采集与应用标准

替代数据应用中的关键在于明确哪些数据具有预测借款者未来还款能力及意愿的能力。美国政治经济研究理事会基于实践提出了衡量替代数据使用价值的“3C”标准,包括信息的信用性质(Credit-like)、覆盖度(Coverage)和集中度(Concentration)。

替代数据如何采集应用仍在积极摸索中,采集标准不一,因此,基于前文分析,结合我国实际经验,本文认为在综合考虑“3C”标准的基础上,根据不同类型替代数据内含信用价值的不同,制定数据采集应用标准。

制定数据采集优先级,重点采集第一层级和第二层级数据。

一是采集有周期性支付特性、采取先服务后付费模式的金融类信息,如采集住房公积金缴存、水电气话等公共事业缴费、保险支付信息(如车险、寿险、医疗险、家庭险)等。

二是采集与借款人偿债能力与意愿强相关的其他信息,如收入、存款、消费信息、法院判决和执行信息等。其他诸如住址搬迁频率、网络搜索、社交活动等信息与信用关联度不大,且数据难以获得、质量难以保证,可根据实际数据采集状况而定。

(四)建立共享化、标准化的采集处理模式

替代数据采集较传统数据采集更为复杂,应从信息共享机制和来源渠道两方面入手。

一是利用现有平台资源,建立多平台合作互惠关系,促进平台信息共享化。

目前多地自建地方征信平台,主要采集政府公开信息等地域属性较强的替代数据,形成完整的采集、整理、保存、加工并提供使用的活动;征信系统通过与政府行政机关和司法机关合作,收集大量的债务信息和行政处罚信息。因此,为避免信息的重复采集与“信息孤岛”现象,在适当范围内,积极推进各平台信息共享,可采取补偿机制实行互惠合作。

二是推动实施替代数据采集标准化、规范化。

针对非结构性替代数据常出现的录入错误、格式不一等问题,建立统一的信息采集与处理模式,强化对数据的加密与转译处理,加强对特定身份标识、互联对象敏感性和关联度等的约束,确保信息采集的合法、科学和统一,同时防止因数据处理造成的金融歧视与信息主体权益侵害。

(五)加强宣传教育,建立社会监督机制

一是完善公众救济渠道,畅通公众信息保护监督,调动公众参与积极性。

二是完善个人对信息采集与使用机构的投诉渠道和举报平台,引入征信行业调解、仲裁和非诉讼纠纷解决等法律机制。

三是通过司法解释和完善制度等方式,明确个人信息侵权形式和赔偿制度,丰富和畅通个人信息保护的救济渠道,提升公众维权能力。

四是加强宣传教育,广泛利用电视广播、报纸等传统媒介与微信、公众号等数字新媒体的多元化渠道,定期发布个人信息保护风险提示和典型案例,形成全方位、多层次、宽领域的宣传合力,加强对信息主体的宣传教育,提高信息主体权益保护意识。

源点注:本文作者 费宪进、汪 雨、朱秋琪、游碧芙、卜泽芯。


信用在线