• 大数据技术在金融行业的应用前景


    本文来自网易云社区

    现在大数据的应用领域非常广泛,它几乎已经涵盖各个行业,包括但不限于金融、政府、零售、交通、制造、电信、医疗卫生以及政府的很多部门的各个领域。然而,金融行业一直是大数据应用的前沿和领航者,这与金融行业的激烈竞争和“有钱”是分不开的。

    数据显示,中国大数据IT应用投资规模以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17.5%),政府和医疗分别为第四和第五。

    在大数据应用综合价值潜力方面,信息技术、金融保险、政府及批发贸易四大行业潜力最高。具体到行业内每家公司的数据量来看,信息、金融保险、计算机及电子设备、公用事业四类的数据量最大。

    引用一篇报告,里面讲到:说起高科技驱动的行业时,人们首先想到的肯定不是银行业。然而,当我们考虑大数据的 3V 特性,Volume、Velocity和 Variety时,很难有其他行业能够比金融行业更加贴近这些特性。例如,仅 2016 年 4 月一个月,外汇(ForEX)市场每天平均交易额为 1.5 万亿美元,外汇市场提供了世界各国货币之间的实时汇率,促进了全球贸易和结算。

    先检验一下大数据的 3V 特性与金融的关联:

    • Volume:TB 甚至 PB 的数据才被认为达到大数据级别。金融行业产生了大量的报价、市场数据和历史交易数据。单是纽交所一天就会写入超过 1 TB 的数据。
    • Velocity:数据存储或者处理速度达到每秒 100000 次以上才认为符合大数据标准。 对于金融市场而言,如此高速的产生数据不算什么难事。而且,系统处理交易数据的速度越快,他们交易的速度就越快。
    • Variety:这要求大数据算法能够处理不同的数据格式和数据源。在企业银行中,机构要同时处理参考数据(比如法人实体)、交易和市场数据、客户要求(通过电子或者声音的形式提出)以及其他很多数据源。

    从大数据的视角来看,金融行业更有意思的地方在于,新的规范和汇报标准形成的持续流动为金融系统提供了新的数据源和更加复杂的维度。

    一些金融行业管理者认为,大数据只能解决技术问题而不能解决业务问题。然而,数据是由业务产生的、数据结果用在业务上,很明显技术是支持业务的。一些人不理解如何从数据流中获得价值,而另一些觉得大数据方法可以提升技术效率但是对于盈亏底线用处不大。然而,大数据方法可以提供的深度分析能够直接支持业务增长并提升效率。金融行业从来不是数据科学家的心之所往,所以一些金融机构在为自身寻找和吸引技能型人才方面困难重重。最终,即使是金融机构具备变革意愿,但他们并不清楚要让企业转型利用大数据方法应该如何开始、从何处开始。

    国内不少银行已经开始尝试通过大数据来驱动业务运营,如中信银行信用卡中心使用大数据技术实现了实时营销,光大银行建立了社交网络信息数据库,招商银行则利用大数据发展小微贷款。总的来看银行大数据应用可以分为四大方面:

    第一方面:客户画像应用。客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。值得注意的是,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论。比如,如果某位信用卡客户月均刷卡8次,平均每次刷卡金额800元,平均每年打4次客服电话,从未有过投诉,按照传统的数据分析,该客户是一位满意度较高流失风险较低的客户。但如果看到该客户的微博,得到的真实情况是:工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户流失风险较高。所以银行不仅仅要考虑银行自身业务所采集到的数据,更应考虑整合外部更多的数据,以扩展对客户的了解。包括:

    (1)客户在社交媒体上的行为数据(如光大银行建立了社交网络信息数据库)。通过打通银行内部数据和外部社会化的数据可以获得更为完整的客户拼图,从而进行更为精准的营销和管理;

    (2)客户在电商网站的交易数据,如建设银行则将自己的电子商务平台和信贷业务结合起来,阿里金融为阿里巴巴用户提供无抵押贷款,用户只需要凭借过去的信用即可;

    (3)企业客户的产业链上下游数据。如果银行掌握了企业所在的产业链上下游的数据,可以更好掌握企业的外部环境发展情况,从而可以预测企业未来的状况;

    (4)其他有利于扩展银行对客户兴趣爱好的数据,如网络广告界目前正在兴起的DMP数据平台的互联网用户行为数据。

    第二方面:精准营销。在客户画像的基础上银行可以有效的开展精准营销,包括:

    (1)实时营销。实时营销是根据客户的实时状态来进行营销,比如客户当时的所在地、客户最近一次消费等信息来有针对地进行营销(某客户采用信用卡采购孕妇用品,可以通过建模推测怀孕的概率并推荐孕妇类喜欢的业务);或者将改变生活状态的事件(换工作、改变婚姻状况、置居等)视为营销机会;

    (2)交叉营销。即不同业务或产品的交叉推荐,如招商银行可以根据客户交易记录分析,有效地识别小微企业客户,然后用远程银行来实施交叉销售;

    (3)个性化推荐。银行可以根据客户的喜欢进行服务或者银行产品的个性化推荐,如根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在金融服务需求,进而有针对性的营销推广;

    (4)客户生命周期管理。客户生命周期管理包括新客户获取、客户防流失和客户赢回等。如招商银行通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。

    第三方面:风险管控。包括中小企业贷款风险评估和欺诈交易识别等手段。

    (1)中小企业贷款风险评估。银行可通过企业的产、流通、销售、财务等相关信息结合大数据挖掘方法进行贷款风险分析,量化企业的信用额度,更有效的开展中小企业贷款。

    (2)实时欺诈交易识别和反洗钱分析。银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。如IBM金融犯罪管理解决方案帮助银行利用大数据有效地预防与管理金融犯罪,摩根大通银行则利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯

    第四方面:运营优化。

    (1)市场和渠道分析优化。通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。

    (2)产品和服务优化:银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。如兴业银行目前对大数据进行初步分析,通过对还款数据挖掘比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。

    (3)舆情分析:银行可以通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息,并通过自然语言处理技术进行正负面判断,尤其是及时掌握银行以及银行产品和服务的负面信息,及时发现和处理问题;对于正面信息,可以加以总结并继续强化。同时,银行也可以抓取同行业的银行正负面信息,及时了解同行做的好的方面,以作为自身业务优化的借鉴。

    大数据时代,券商们已意识到大数据的重要性,券商对于大数据的研究与应用正在处于起步阶段,相对于银行和保险业,证券行业的大数据应用起步相对较晚。目前国内外证券行业的大数据应用大致有以下三个方向:

    第一:股价预测

    2011年5月英国对冲基金Derwent Capital Markets建立了规模为4000 万美金的对冲基金,该基金是首家基于社交网络的对冲基金,该基金通过分析Twitter 的数据内容来感知市场情绪,从而指导进行投资。利用 Twitter 的对冲基金 Derwent Capital Markets 在首月的交易中确实盈利了,其以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。

    麻省理工学院的学者,根据情绪词将twitter内容标定为正面或负面情绪。结果发现,无论是如“希望”的正面情绪,或是“害怕”、“担心”的负面情绪,其占总twitter内容数的比例,都预示着道琼斯指数、标准普尔500指数、纳斯达克指数的下跌;

    美国佩斯大学的一位博士则采用了另外一种思路,他追踪了星巴克、可口可乐和耐克三家公司在社交媒体上的受欢迎程度,同时比较它们的股价。他们发现,Facebook上的粉丝数、Twitter 上的听众数和 Youtude 上的观看人数都和股价密切相关。另外,品牌的受欢迎程度,还能预测股价在10天、30天之后的上涨情况。

    但是,Twitter 情绪指标,仍然不可能预测出会冲击金融市场的突发事件。例如,在2008年10月13号,美国联邦储备委员会突然启动一项银行纾困计划,令道琼斯指数反弹,而3天前的Twitter相关情绪指数毫无征兆。而且,研究者自己也意识到,Twitter 用户与股市投资者并不完全重合,这样的样本代表性有待商榷,但仍无法阻止投资者对于新兴的社交网络倾注更多的热情。

    第二,客户关系管理

    (1)客户细分。通过分析客户的账户状态(类型、生命周期、投资时间)、账户价值(资产峰值、资产均值、交易量、佣金贡献和成本等)、交易习惯(周转率、市场关注度、仓位、平均持股市值、平均持股时间、单笔交易均值和日均成交量等)、投资偏好(偏好品种、下单渠道和是否申购)以及投资收益(本期相对和绝对收益、今年相对和绝对收益和投资能力等),来进行客户聚类和细分,从而发现客户交易模式类型,找出最有价值和盈利潜力的客户群, 以及他们最需要的服务, 更好地配置资源和政策, 改进服务,抓住最有价值的客户。

    (2)流失客户预测。券商可根据客户历史交易行为和流失情况来建模从而预测客户流失的概率。如2012年海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”主要应用在客户深度画像以及基于画像的用户流失概率预测。通过对海通100多万样本客户、半年交易记录的海量信息分析,建立了客户分类、客户偏好、客户流失概率的模型。该项技术最大初衷是希望通过客户行为的量化分析,来测算客户将来可能流失的概率。

    第三,投资景气指数。

    2012年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数),通过一个独特的视角传递个人投资者对市场的预期、当期的风险偏好等信息。国泰君安研究所对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后得到的综合性投资景气指数。

    3I指数通过对海量个人投资者真实投资交易信息的深入挖掘分析,了解交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息。在样本选择上,选择资金100万元以下、投资年限5年以上的中小投资者,样本规模高达10万,覆盖全国不同地区,所以,这个指数较为有代表性。在参数方面,主要根据中小投资者持仓率的高低、是否追加资金、是否盈利这几个指标,来看投资者对市场是乐观还是悲观。“3I指数”每月发布一次,以100为中间值,100—120属于正常区间,120以上表示趋热,100以下则是趋冷。从实验数据看,从2007年至今,“3I指数”的涨跌波动与上证指数走势拟合度相当高。

    总的来看,大数据在金融行业的应用起步比互联网行业稍晚,其应用深度和广度还有很大的扩展空间。金融行业的大数据应用依然有很多的障碍需要克服,比如银行企业内各业务的数据孤岛效应严重、大数据人才相对缺乏以及缺乏银行之外的外部数据的整合等问题。可喜的是,金融行业尤其是以银行的中高层对大数据渴望和重视度非常高,相信在未来的两三年内,在互联网和移动互联网的驱动下,金融行业的大数据应用将迎来突破性的发展。

    网易猛犸大数据平台作为一站式的应用开发和数据管理平台,通过大数据开发套件,将数据开发、任务运维、自助分析、数据管理、项目管理等工作通过工作流的方式有效的串联起来,提供敏捷易用的用户操作界面,降低了大数据分析的使用门槛,显著的提高了数据开发工程师和数据分析师的工作效率。猛犸大数据平台在电商、音乐、云课堂学习、企业工业制造等领域已广泛应用,基于持续的需求驱动,通过多行业的业务验证,同时丰富全面的组件,提供完善的平台能力,满足不同类型的业务需求。

    在对数据的分析处理过程中,数据的安全重要性不言而喻。猛犸平台底层使用Kerberos认证,实现了数据的安全性和隔离性。除了认证系统,利用Ranger实现了细粒度的权限控制,保证了各个租户只能查看授权访问的表、库和字段。不仅如此,平台还提供审计功能,通过对用户平台行为进行记录、分析和汇报,用来帮助对事故追根溯源,提高了平台的安全性。

    相关阅读:猛犸机器学习开发实践

    原文:大数据技术在金融行业有哪些应用前景?

  • 相关阅读:
    排序——字符串怀疑人生
    广搜的变形+最短路思想 变色龙
    阿斯顿发发顺丰
    莫队暴力 一知半解
    P3384 【模板】树链剖分
    U74201 旅行计划 树上找链长度
    数据结构:线性表基本操作和简单程序
    数据结构:循环链表实现约瑟夫环
    Codeforces 215D. Hot Days(贪心)
    Codeforces 1080C- Masha and two friends
  • 原文地址:https://www.cnblogs.com/163yun/p/9355309.html
Copyright © 2020-2023  润新知