邮储大数据金融平台项目

结合邮储河北省分行数据使用的现状,以及大数据在银行业的应用场景

结合大数据的思维、引入大数据平台及配套的数据挖掘、数据分析、数据展示等技术是邮储河北省分行解决这些问题的合适手段

以大数据技术为支撑,能为邮储河北省分行业务发展、风险控制、经营分析、绩效管理等需求提供统一的支持

结合邮储河北省分行数据使用的现状,以及大数据在银行业的应用场景结合大数据的思维、引入大数据平台及配套的数据挖掘、数据分析、数据展示等技术是邮储河北省分行解决这些问题的合适手段以大数据技术为支撑,能为邮储河北省分行业务发展、风险控制、经营分析、绩效管理等需求提供统一的支持

项目总结

·提升了邮储河北分行的数据管理和应用能力,满足了日益增长的数据规模和类型,以及未来更多种类的数据的管理需求,建设了一个全行基本的大数据平台,统一全行现有全部的数据以及未来的数据都集中管理起来,成为全行统一的数据出口,方便全行各种业务和上层应用的数据需求。

·构建支持存储全行现有全部数据,还可以保证以后能接入其他第三方数据来源。

·满足全行不断增长的数据规模,以后可以在不推翻现有系统主体架构的情况下平滑的通过增加新服务器扩展平台处理能力,满足新的数据应用需求规模。

·提供数据备份功能,保证一台服务器出现问题的情况下,对外继续能提供数据服务。

·作为全行统一的数据出口,为综合绩效考核提供数据支撑、为业务管理分析提供数据支持、满足风险控制对数据的需求,提供直接的数据支撑。为客户综合营销和精准营销提供数据支撑。

项目背景

随着邮储河北省分行业务规模的不断扩大以及产品服务种类的日益丰 富,数据总量规模迅速膨胀,数据类型也不断增加,迫切需要与之匹 配的数据基础设施对其进行规范化存储和分析处理。与此同时,随着 金融市场环境竞争的日益激烈,特别是在传统的国有大型商业银行、 各城市商业银行、外资银行以及小额信贷公司向金融市场不断渗透的 背景下,邮储河北省分行传统的粗放型经营管理模式已难以应对我们 在客户开发能力、内部管理能力、产品综合营销能力和风险控制能力 等方面所面临巨大的挑战,迫切需要借助大数据战略打破各业务数据 边界,通过大数据分析构建更为全面的银行精细化运营模式和风控措 施,寻求最优模式以支持管理决策。

为实现邮储河北省分行的精细化运营,可将大数据技术应用在客户管 理、产品营销、风险管理等主要场景,作为一种提升运营水平的重要手段。

其次,随着社交网络应用如火如荼地飞速发展,银行提供服务的通道 不能仅仅局限于柜面、自助终端等传统渠道,而应整合各种能够全方 位接触客户的新兴服务渠道。银行发展战略正逐步从以产品为中心转 向以客户为中心,客户已成为银行发展的重要驱动力。银行不应仅仅 销售产品和服务,还应为客户提供完善的多渠道体验。定位目标客户 以及挖掘客户的最真实需求成为邮储河北省分行目前最为关注的问题 。

借助大数据技术,通过对客户消费数据、浏览记录、购买路径等用户 数据进行挖掘追踪分析,可以获取不同客户的消费习惯、风险收益偏 好等特征信息,从而根据不同客户特征打造个性化的产品营销服务方 案,将最适合的银行产品服务推介给最需要的客户,以主动营销和个 性化营销打破传统的无差异的、被动的产品服务营销方式。大数据技 术的有效运用,不仅可以提升银行产品的精准营销水平,而且可以提 升客户对银行产品和服务的认可程度。

另外,银行必须有效地甄别风险、防范风险和控制风险,风险管理是 银行稳健发展至关重要的一环。社会化媒体的互动、实时的传感器数 据、电子商务和其他新的数据源,正给银行现在的风险控制管理方法 带来很多新的思路和资源,仅仅借助传统的解决方案,无法全面地整 合这些资源来提供风险管理能力。大数据分析技术可以被用于帮助邮 储河北省分行了解客户的自然属性和行为属性,结合客户行为分析、 客户信用分析、客户风险分析以及客户的资产负债状况,建立完善的 风险防范体系。

项目内容

方案的总体架构图如下:

大数据平台的建设大致分为几个部分:数据接入、数据治理、平台搭建、数据加工、数据发布。

1)数据接入

主要包括调查现有邮储河北省分行需要接入的数据以及其具体保存形式,确定数据接入范围和具体的接入形式,开发对应的接入接口,确定接入检验标准和检查工具,并导入存量数据,接入增量数据到大数据平台。 目前这一期主要是针对下载平台的数据。

2)数据治理

针对邮储河北省分行现有的数据,为了满足三农业务的需要,把现在各个业务条线的数据的逻辑关系理顺,确定主数据、元数据、业务数据的管理规范。并设计出适合邮储河北省分行各种应用的统一数据视图模型【包括客户视图、机构视图、产品视图、地区视图、行业视图】,针对这些数据视图模型,梳理现有数据的关系。找出数据缺陷的地方,确定现在数据的质量,并针对性提出提高数据质量的方法和措施。

3)平台搭建

大数据平台承载了数据的存储、数据转化加工、以及数据指标计算、数据分析查询、数据发布等功能,是整个数据利用体系的核心。包括:

·平台基础层:

基础处理平台

大数据基础平台负责存储所有邮储河北省分行的数据,不仅仅是现在的下载平台的业务数据,还包括后续接入进来的数据。大数据基础平台负责管理各种利用数据的并行计算任务顺利执行完成,同时保持整个平台的计算吞吐能力高效、可扩展。根据后续数据以及数据计算的需求水平扩展平台能力。

系统管理平台

系统管理平台提供了统一的安装、部署、监控、管理的运维工具,上层平台和业务可通过插件的形式将运维管理工作全部集成到统一的运维管理平台中来。

·平台数据开放层:

数据开放平台

开放平台构筑于大数据处理平台和系统管理平台之上,为上层的平台和应用提供统一的身份认证和数据访问接口。开放平台主要提供三大类型的访问接口,即身份验证接口、资源管理接口以及访问控制接口。

大数据建模平台

大数据建模平台专门用来处理邮储河北省分行的各种应用的数据建模。

4)数据加工

数据利用加工的过程一般分为ETL(加载、清洗抽取、转化)、计算、发布等几个主要的过程。

大数据平台的加工层级根据数据状态和抽象粒度的层次不同,大致分为五层。即缓冲数据层、基础数据模型加工层、通用数据明细层、聚合汇总层、集市分析层。

5)数据发布

大数据平台是一个基础平台,主要是为上层的应用服务,所以需要把自己平台里面的各种数据以应用能接受的方式提供出来。包括数据下载、数据开发接口、数据访问接口、并转换成各种格式提供出来。

大数据平台建设项目主要包括基础能力层、数据服务层、应用能力层和数据应用层四个部分,系统总体框架图如下图所示:

大数据平台实现了海量异构数据的统一存储与计算、数据建模与分析及数据分析展示等功能,主要包括大数据存储及处理平台、系统管理平台、开放平台、大数据建模平台(DataInsight)及大数据分析展示平台(Discovery)。

MDP平台是明略基于Apache Hadoop所研发的大数据平台,不仅可以提供海量数据的存储和多种高性能的计算框架,还为保护平台上的数据和服务提供完整的安全保障体系、图形化的平台管理和数据作业、统一的身份认证和权限管理、细粒度的权限控制和实时增量数据同步功能。

MDP平台采用四层架构,分别为数据传输、基础服务、计算引擎和平台接口,其架构图如下图所示:

大数据挖掘是大数据中非常重要的一个组成部分。只有从大数据中挖掘出价值,大数据才有意义。明略DataInsight是一款企业级的大数据挖掘平台产品,通过应用先进的大数据技术,帮助企业实现了海量数据上的数据挖掘,获取隐藏在大数据下的知识,为企业创造新的业务价值。

与常见的只能进行单机挖掘的产品不同,明略DataInsight基于Apache Spark架构,使得数据挖掘能够真正并行化起来,能够真正的在海量数据机上进行数据挖掘。突破了传统数据挖掘工具只能在单机上建模的缺陷,使得企业大数据挖掘成为了可能。

明略DataInsight从上到下分为3层,分别是接口层,调度层和运行层。其中:

·接口层:用来与用户和外部系统进行交互。接口层提供了可视化建模工具以及模型应用系统界面,供用户创建模型和对生产环境中的模型进行管理。此外,还提供了Restful API供其他外部系统进行模型服务调用。

·调度层:调度层负责调度模型作业的运行。一个模型作业由若干任务组成,每个任务的执行环境和执行次序都不一样。调度层负责将任务发往合适的执行器中运行,并负责任务之间的通信和错误处理等功能。

·运行层:运行层负责真正的运行一个任务,运行层是基于Spark并行架构的,在Spark中启动了多个运行器(Runner)来负责最终任务的执行。这儿的运行器可以是普通的Spark任务,也可以是R或者Python的容器。

·Discovery是基于Hadoop技术框架的大数据商业智能平台,旨在帮助用户挖掘大数据环境下的数据价值,解决传统BI工具在大数据环境下无法使用的困境。

·Discovery是B/S架构,基于大数据技术构建,可同时支持大数据平台和传统的RDBMS;提供文本文件、JDBC、Cube、Search等多类型的数据源支持;

Discovery平台架构如下:

项目成果

大数据平台建设包括大数据基础平台和相关配套的数据挖掘及展示套件这几个方面:

建设基于最先进的hadoop、spark、hbase、hive等主流的Apache开源大数据技术的大数据基础平台,满足邮储河北省分行海量的结构化数据和非结构化数据,行内数据和行外数据的统一存储和统一的处理任务管理,通过构建基于分布式数据的分布式并行计算框架的计算集群,实现邮储河北省分行海量数据的高效利用。

为了方便邮储河北省分行的维护人员能顺利的保证大数据平台集群的日常正常运行,提供完备的监测、维护工具,并能提供图形化的集中运维平台,方便及时、直观的了解大数据基础平台的集群运行情况,以及能准确、方便、及时的进行集群的日常运维管理。

同时,大数据基础平台要对Apache等主流的开源大数据技术基础组件保持友好接口,使得邮储河北省分行的大数据平台能够随着日后Apache开源组件的先进性能的发布进行平滑的同步升级,保持和主流先进技术的无缝同步,以最大程度的避免平台投资浪费。

Apache开源组件的先进性能的发布进行平滑的同步升级,保持和主流先进技术的无缝同步,以最大程度的避免平台投资浪费。邮储河北省分行大数据平台除了建设大数据基础平台来具备处理多种数据来源、多种类型的结构化及非结构化数据的存储、运算、运行维护、集中管理等基础功能外,还应提供与之配套的高效的建模工具及模型运行系统,以大大优化模型开发完之后的模型部署和二次开发的过程,帮助邮储河北省分行优化从模型开发到模型上线的大数据挖掘全过程管理,加快数据价值挖掘的进程。

·数据中心搭建了数据挖掘平台,为业务人员自行进行数据探索提供了易用的工具:

·数据中心搭建了大数据平台,为数据处理、开放接口提供了底层支撑:

A. 北京市海淀区中关村东路1号院1号楼 清华科技园 创新大厦A座10层

T. 010-82151987 F. +8610-84678165

©2015 MININGLAMP. All rights reserved 京ICP备15016868号