要闻 宏观 金融 证券 产业 公益财经 地产 能源 健康 汽车 评论 人道慈善

https://uploads.chinatimes.net.cn/article/201909181847190VhgXrUnrr.JPG

祸起爬虫!“数据圈”一夜入冬?

王仲琦 冯樱子 2019-9-18 20:08:59

本报记者 王仲琦 冯樱子 北京报道

对于第三方数据公司来说,仿佛一夜入冬了。

近期,“数据圈”接连传出重磅消息。先是魔蝎科技、新颜科技被爆遭到调查,然后公信宝运营主体——杭州存信数据科技有限公司(下称“存信数据“)也被杭州市公安局西湖分局古荡派出所查封。

而且这可能只是开始,本次监管部门对打击违法获取和使用信息的大数据公司的决心很大。北京一家数据科技公司研发部负责人刘毅(化名)告诉《华夏时报》记者:“公司已经放假了,何时上班十一后等通知。其他一些公司也提前放假了,没放假的也在停工观望,现在监管部门对提供爬虫服务的数据公司整治力度空前的大。”

而对于目前“数据圈”存在的乱象,中信集团原监事长、中信银行原行长朱小黄在“2019中国银行业发展论坛智慧金融(上海)峰会”上指出,好多数据公司都是“爬”下来的数据,当然成本低,数据公司利用了这个成本低的优势,迅速的获得收益。这种建立在侵犯个人、企业数据下形成了一个商业模式使行业产生了异化。

“没有爬不到的数据”

在近年互联网金融大潮中,大数据服务供应商一直扮演着重要角色。而近期多家公司接连被查,将处于数据风控服务核心的网络爬虫技术推到了风口浪尖。

爬虫作为一种计算机技术,具有技术中立性,爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到20年前,搜索引擎、聚合导航、数据分析、人工智能等业务,都需要基于爬虫技术。但是爬虫作为获取数据的技术手段之一,由于部分数据存在敏感性,如果不能甄别哪些数据是可以爬取,就会触及监管红线。

“爬虫技术作为第三方大数据风控服务商的主打产品,也是互联网金融公司进行大数据风控必不可少的武器。”刘毅对记者说,“不过,目前网络爬虫存在着是否经过用户授权,是否存在过度爬取信息,爬取到的信息使用等问题。随着同业竞争越来越激烈,一些畸形的爬虫产品也随之出现,涉及数据窃取、泄露、滥用和隐私安全等问题。”

一些大数据风控服务商为了在竞争中取得领先地位,需要更精准的分析用户行为,制作用户画像,为了获取海量的数据支撑,电商数据、通信运营商、出行数据,信用卡、人行征信等信用数据,甚至网银、公积金等金融数据等,都成为爬虫们的目标。

据刘毅介绍, 市场上曾经有一款专门爬取支付宝数据的产品。只需要用支付宝扫描一下登录“二维码”,就可爬取支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息、交易记录等。而一家第三方大数据风控服务商曾在市场上推出的一款“同业爬虫”产品更厉害,只需要用户提供其在其他现金贷平台的账号和密码,就可以爬取用户的所有信息,包括放款额和风控数据。放款机构可以根据这些数据进行评估,实现“秒批”和“秒放”。这个产品相当于直接掠夺同业数据,窃取别人的风控成果。由于过于野蛮粗暴,被业内成为“耍流氓”。

“只要技术好,就没有爬不到的数据。”刘毅总结道。

“一些第三方大数据风控服务商利用爬虫技术违法获取或过度获取用户信息并使用的行为,已经成为阻碍行业健康发展的瓶颈。而个别公司打着金融创新的幌子,就是为了突破监管的要求。无论公司发展的规模多大,违规获取和使用数据的行为都是不可能回避的‘原罪’。”一位不具姓名的金融业人士向本报记者指出。

提高自主风控能力

事实上,对大数据公司获取和使用用户信息的行为并非无法可依。

早在2017年6月1日,《网络安全法》正式施行,比如第四十一条规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意;第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。

而在2019年5月28日国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》也明确出现了对网络爬虫规制的法律条文。其中第十五条规定,网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。备案内容包括收集使用规则,收集使用的目的、规模、方式、范围、类型、期限等,不包括数据内容本身;第二十条表示,网络运营者保存个人信息不应超出收集使用规则中的保存期限,用户注销账号后应当及时删除其个人信息;第二十七条指出,网络运营者向他人提供个人信息前,应当评估可能带来的安全风险,并征得个人信息主体同意。

目前,随着“数据圈”乱象整治的深入,一些公司纷纷对业务进行调整。其中,上海一家信息科技公司干脆发公告给合作商户称,暂停对外提供用户授权的运营商爬虫服务,拥抱监管、加强自律。

公开信息显示,本次被调查的公司大多是国内较早从事大数据智能解决方案的服务商。主要为银行、保险、消费金额公司、贷款机构等提供智能风控、风险分析、信用分析、多头借贷、风控建模等风控技术解决方案,合作机构多达数千家。

上述金融业人士也向本报记者表示,严格监管对于行业的长远发展起到了积极作用。随着强监管信号的不断释放,野蛮生长的大数据收集时代将结束。这对很多风控公司、征信公司以及金融机构都会受到深远的影响。

那么,对于金融等机构来说,这些民营第三方数据供应商,真的无可替代了吗?其实,早在2014年初,北京中关村就成立了树海大数据交易平台,2015年4月中国第一个大数据交易所在贵阳挂牌运营;同年7月底,武汉东湖大数据交易中心开业。此外,江苏、浙江等省份也筹建了自己的大数据交易中心或交易所。

河南一家城商行的高管告诉本报记者:“这些国家性质的数据交易所或交易平台,受到的国家管控较强,其数据确实非常合规,但由于来源渠道受限,对于金融机构来说在实际应用中效果不大。”

不过,对于金融机构来说,在有限的数据下做好风控是未来必须面对的问题。前述金融业人士认为,事实上,此前一些金融机构的风控工作,主要是靠引入数据供应商,反倒是自身的风控水平出现下滑。另外,数据资源太多也不一定是好事,会导致很多金融机构贷前审核不认真,降低了准入门槛,让很多还款能力弱、还款意愿不强的用户通过了审核,最后金融机构只好通过加大贷后催收力度的办法迫使其还款,这又衍生出暴力催收的问题。

断掉第三方数据供应商违规获取的数据后,金融机构只能扎扎实实地开展贷前审核工作,让真正优秀的、有技术能力的企业凸显出来。

在这次整治数据乱象中,9月17日,第三方智能风控与分析决策服务供应商同盾科技实控人兼CEO 蒋韬在公开信中表示,人工智能及大数据这个行业是个新领域,这个新领域是需要所有从业者一起努力,在竞争的过程中互相学习,共同帮助和配合监管机构,逐步建立起这个行业的最佳实践以及规制。

拥抱大数据市场蓝海

尽管监管部门对数据公司整治力度空前,但不可否认的是,大数据市场未来发展前景仍十分广阔,是当之无愧的蓝海。

国内的大数据产业,眼下已经进入了快速发展时期,政府、通信和金融领域,已经成为了大数据技术落地的重点。其中,银行、保险、证券与投资,是整个金融领域的重要组成部分。面对日益庞大的金融资金交易量、日益严峻的网络黑客攻击形势,金融机构积极转变思维方式,并尝试利用大数据、云计算等技术来构建防火墙,进一步提升金融交易的安全性。而居于首要位置的大数据分析技术,在风控、信贷、金融反欺诈等方便有着先天优势。

具体来说,利用大数据技术,银行等金融机构的工作人员可以对贷款的目标客户进行资信评估。通过对某家企业的生产数据、电水消耗、工资水平、订单数量、投资偏好、研发投入、产品周期等进行全方位的分析,评估人员能够较为客观地了解企业的实际运营状况,进而决定是否放贷及放贷的金额。

值得一提的是,新技术的产生,往往伴生出新的生产方式和商用模式。大数据在金融领域的应用,不仅对原有的金融交易信息采集方式造成一定的冲击,也促使出现新型的数据信息收集、整合和分享方式。随着大数据健康发展,许多行业的用户开始建立数字化云平台,以此为企业生产、销售等信息的统计和汇总提供便利。

咨询机构IDC最新发布的报告预测,2019年,大数据与商业分析解决方案全球市场的整体收益将达到1896.6亿美元(约合人民币13495.1亿元),这一数字相比2018年增长12.1%。在2019年—2023年的预测期内,全球大数据市场相关收益将实现13.1%的复合年均增长率,并预计总收益在2023年达到3126.7亿美元。

未来5年,由于政策支持以及多方技术融合,中国大数据市场将保持稳定增长。该机构预测,2019年中国大数据市场总体收益将达到96亿美元,2019年—2023年预测期内的复合年均增长率为23.5%,增速高于全球平均水平。到2023年,市场规模则将增长至224.9亿美元。从技术上看,大数据相关硬件在2019年中国整体大数据市场中占比最高,达到45.2%;大数据相关服务支出和软件收益的占比则分别为32.2%和22.6%。而到2023年,随着技术的成熟与融合以及数据应用和更多场景的落地,软件规模占比将逐渐增加,服务相关收益占比保持平稳发展的趋势,而硬件规模在整体的占比中则逐渐减小。硬件、服务、软件三者的比例将更为相似,逐渐趋近于各占三分之一的权重。

而从行业上看,2019年中国大数据与商业分析解决方案市场中收益前三的行业依次是金融、政府、通信,三者总和占中国市场总额的50%以上。在金融行业,大数据分析技术赋能于金融反欺诈、风控、信贷业务等业务。

责任编辑:冯樱子 主编:冉学东