反洗钱、贷款、征信、保险?—基于hadoop的金融大数据平台实践
本次分享主要介绍了大数据处理平台的架构以及三个主要的实践应用。
一、金融大数据平台架构
先说明下互联网数据和金融数据的区别,互联网数据具有丰富、鲜活、复杂和海量的特点,而金融数据则具备真实、多样、专业以及安全的特征。
金融大数据平台架构主要分为几个部分,其中通过业务系统、移动APP、文本、图像、音频和视频等形成数据源,然后通过SQOOP、OGG、FLUME和MQ实现数据接入,接着进行Map reduce,Hive,Hbase,Spark等处理,最后在敏捷BI和数据挖掘、机器学习方面实现数据应用。
由于金融数据对安全性要求非常高,在数据传输中需要进行网络区域隔离和传输加密,其中包括通过数据隔离、安全等级实现数据安全管理,利用数据脱敏、文件磁盘加密实现存储安全等,最后实现OA用户认证体系和企业认证体系互相有效结合。在数据应用阶段,要善于利用实时计算和离线计算的效果。
一方面在敏捷BI应用中尤其要重视可视化数据开发、可视化建模以及可视化方案实施。另一方面在大数据机器学习和数据挖掘中,由于以前金融机构主要使用SAS软件,为了更好地和Hadoop相结合,需要进行执行SAS或者R代码分布式,提升数据挖掘的效率。其中大数据机器学习系统主要有收集交易数据和用户画像数据,进行数据聚合,然后进行模型预测,包括图标展示和HDFS存储。
二、金融大数据平台实践
在大数据平台实践方面有新一代的CRM和Campain系统,包括通过人口属性、社交、信用、消费和兴趣爱好进行用户画像,利用客户留存、客户线上化和借贷营销进行多场景设计,再运用短信、电话、推荐以及线下拜访方式多渠道触达客户,最后进行实时接入、分发、分析、展现等实时营销效果反馈。
金融大数据平台在征信实践方面,一是在客户授权条件下获得淘宝、京东、社保、电网以及通信等实时数据和保险、消费、理财、黑名单等离线数据。二是建立数据集市,包括身份信息,生活信息,违约记录以及是否命中黑名单信息,其中黑名单信息是花费非常大的代价才能获得。三是应用实时信用评分平台,主要有评分卡模型和信用评分实时计算。四是准入、授信以及贷后监控的数据应用方面。
金融大数据平台在医疗健康实践方面,一是在客户授权条件下通过收集商业保险、社保、体检机构、检测中心等渠道收集数据。二是建立生活习惯、体检报告、就诊信息和用药信息等用户画像。三是借助医学专家建立健康风险评估模型等,进行模型评估和训练。四是产生健康报告、健康档案、健康指数以及个性化健康计划等数据产品。
金融大数据平台在反洗钱实践方面,通过对保险、银行、投资以及平台的数据进行清洗,加入反洗钱风险模型计算平台,包括大额可疑、资金集中度、三反联动以及黑名单等因素,分类计算出结果,产生风险分析结果数据。
以上是李均先生本次分享的内容介绍,相关PPT与音视频下载请点击【查看】。
演讲嘉宾:李均
内容整理:高峰
本文版权由CHINA HADOOP大数据资讯网与演讲者共同拥有,转载请保留原文来源链接及公众号信息,违者必究。
China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
-
大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
-
大数据与工业4.0 电力、电网、能源、炼钢等;
-
大数据与电子商务 国内互联网主流电商企业应用与架构分享
-
金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
-
智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
-
计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、 Storm、Fafka等
-
大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
-
NewSQL/NoSQL ·HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
-
数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
-
数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
-
大数据创业与融投资 分享大数据领域的创业团队和故事