广东省中小企业数量众多,GDP 贡献高达全省 60%,解决了全省 80%的城镇就业数量,是全省经济发展的主要动力之一。同时,广东省产业结构特征十分鲜明,工业制 造业、零售批发业、房地产业等行业,在全国居于领先水平。但与此同时,广东省的中小企业融资难、融资贵问题仍然突出,一方面融资的可获得性,信息不对称问题使得金融机构 难以准确识别中小企业的信用风险,无法打破中小企业抵押、担保瓶颈;另一方面融资的可操作性,大量金融机构缺少专业的、可靠的、具备公信力的信息化业务平台,无法满足中...
附件:用户需求书
说明:如系统生成的用户需求书出现重影或者不是很清晰,可见本附件。
第二部分 用户需求书
本项目为服务类项目,中小企业划分标准所属行业为:软件和信息技术服务业。
一、“★”“▲”号条款
《用户需求书》中,如标有“★”的条款均为必须完全满足指标或优于,投标人须进行实质性响应,投标人若有一项带“★”的条款未响应或不满足,将按无效投标处理;如标有 “▲”的条款均为评审的重要技术指标,投标人若有部分“▲”条款未响应或不满足,将导致其响应性评审严重扣分。
二、 项目背景
(一)国家战略支持大湾区成为国际一流湾区
中共中央、国务院印发《粤港澳大湾区发展规划纲要》,对粤港澳大湾区建设提出重要战略性指导,提出合作构建多元化、国际化、跨区域的科技创新投融资体系,广东省是粤港澳大湾区一体化的重要桥头堡。通过搭建广东省中小企业融资平台,提升金融机构的科技能力、风险管理能力,构建智能化的金融监管体系,及时有效反映金融机构业务运营状况,有助于完善创新投融资体系。
(二)企业融资难融资贵问题突出
广东省中小企业数量众多,GDP 贡献高达全省 60%,解决了全省 80%的城镇就业数量,是全省经济发展的主要动力之一。同时,广东省产业结构特征十分鲜明,工业制造业、零售批发业、房地产业等行业,在全国居于领先水平。但与此同时,广东省的中小企业融资难、融资贵问题仍然突出,一方面融资的可获得性,信息不对称问题使得金融机构难以准确识别中小企业的信用风险,无法打破中小企业抵押、担保瓶颈;另一方面融资的可操作性,大量金融机构缺少专业的、可靠的、具备公信力的信息化业务平台,无法满足中小企业小、急、频的融资需求。
(三)金融机构与企业信息不对称
广东省已经形成了功能完备、层次丰富的金融生态,服务机构涵盖几乎所有的主流银行、 500 余家的小额贷款公司、超过 8000 家的保理公司以及众多的 PE、VC,包括区域性股权市场,其资产规模、产品质量、科技实力及服务水平等领先于全国。但是,大量金融机构仍然主要服务大中型头部企业,在扩大对中小企业有效金融供给方面发力不足,这既不利于激发中小微民营经济的活力和创造力,也制约了广东省金融机构自身的进一步发展。
近年来,在江苏、海南等多个省市,深圳、苏州、烟台等城市在地方政府和地方金融监督管理局的指导下建设省市级综合金融管理平台,政府负责搭建一站式服务,通过行政手段和市场手段相结合方式,一方面坚持政府引导驱动,通过窗口引导、政策落地等多种方式让金融机构动起来,另外一方面,以大数据、云计算等金融科技手段为解决中小企业融资问题赋能。平台建设起到示范和引领的作用,对解决中小企业融资问题起到很好的促进作用。
2020 年 1 月 2 日,在省领导的出席和见证下,广东省中小企业融资平台(以下简称中小融平台)正式上线。广东省中小企业融资平台是由省地方金融监管局与省政务服务数据管理局联合牵头建设,率先打造“数字政府+金融科技”广东模式,核心是依托广东“数字政府”,整合税务、市场监管、社保、海关、司法、科技以及水电气等数据信息,从而解决金融机构与中小企业信息不对称难题。广东省中小企业融资平台具有六大功能模块,包括:
智能融资模块。直接对接资金供需双方,整合多种金融机构,构建融资产品超市,根据企业画像、企业实际经营状况及资金需求直接为其匹配金融产品;
智能监管模块。可以实现数据采集分析、风险预警、咨询投诉等多种监管需求,为市场创造公平公正的金融环境,帮助金融监管部门预防并化解风险事件;
智能供应链模块。通过对信息流、资金流、物流进行整合,形成标准化供应链金融资产,提高融资速度降低融资成本;
智能直融模块。通过整合区域性股权市场信息,让企业在债权之外直接融资;
智能风控模块。在贷前、贷中和贷后分别通过不同的风控机制和抓手实现 360 度无死角的风控管理;
智能运营模块。支持多个外部第三方数据引擎,以多视角综合判断,避免决策片面化,使平台保持开放性、兼容性,与时俱进。
目前,平台已接入多类政府数据,通过对全广东省企业信息全面采集,进行企业风险评级和画像,是全国第一个对全省域范围内中小企业进行商业信用分析评价的平台。
三、 项目概况
广东省中小企业融资平台(以下简称“中小融平台”),其依托广东“数字政府”的数据资源,通过线上化的信息采集、信用评价、信息共享、线上融资对接等业务办理流程缓释中小微企业融资难、融资贵、融资慢等问题,推动传统产业优化升级和金融机构科技创新发展。
本项目要求中标人通过自身资源优势,为广东省中小企业融资平台导入数据、产品、企业等资源,提高平台运营效能,为全省中小企业提供综合金融服务,构建全国领先、功能强大、具有标杆意义的数字化金融服务平台,打造“数字政府+金融科技”广东模式。
四、 服务期限
本项目服务期限为:自签订合同起两年内完成。
五、 采购人
广东省地方金融监督管理局
六、 服务地点
广东省广州市
七、 项目目标
数据治理作为模型和画像的底层支撑,是整个项目非常重要的一环。数据治理服务内容主要包括数据治理规划服务、数据接入服务、数据采集服务、主数据管理服务、元数据管理服务、数据清洗加工服务、数据质量监控服务、数据分析应用服务、数据稽查服务、数据标准服务服务、数据安全服务、数据价值评估、生命周期管理服务、第三方金融机构数据采购、智能监管专题采集服务、智能监管专题分析服务和智能监管专题工时及费用估算。
本项目数据治理服务仅限于广东省中小企业融资平台内部数据治理服务,跨部门的数据治理服务由政务大数据中心统一提供。广东省中小企业融资平台数据治理按照两大类不同业务进行划分:为企业提供融资服务以企业数据为核心的融资风控专题和为金融局提供以金融机构数据为核心的智能监管专题。
广东省中小企业融资平台部署在广东“数字政府”政务云平台上,政务云平台基于 GB/T 22239—2008 等级保护政务云安全体系要求进行设计,同时体现其他法务合规需求,实现安全能力的可视化、可配置、可监控的统一管理。基于防护监管一体化的“数字政府”安全体系,需建立规范运营管理机制,为广东省中小企业融资平台提供专业的安全管理服务和重要数据安全服务,应对新型复杂威胁和未知多变的风险,确保广东省中小企业融资平台的安全运营和政策遵从。
由于此部分内容属于金融领域的数据治理和挖掘工作,专业性较强,因此将在目前政务大数据平台已有成果的基础上,根据数据治理的具体要求和相关的采购方式,采购金融领域内专业的综合性数据服务提供商提供相应服务,引领平台以及数字中国的健康可持续发展,创新高质量发展。
具体任务指标如下:
序 号 | 所属专题 | 子项 | 细项 | 服务描述 |
数 据 治 理 | 包括至少 80 家金融机构、至少 100 家企 | |||
规划服务 | 业主和全省 21 个地市、人民银行、广东 | |||
银监等政府监管方等各类参与方的具体 | ||||
需求,进行需求调研分析。开展政务数据 | ||||
1 | 需求调研 | 调研、第三方数据调研、互联网公开数据 调研、政府监管需求调研、金融机构风控 | ||
需求调研、企业数据需求调研,根据企业 | ||||
评估内容确定所需的数据字段,潜在数据 | ||||
源,输入项和输出项等,配合数字政府实 | ||||
施方开展数据治理工作和工具搭建。 | ||||
对广东省政务大数据中心目前的数据现 | ||||
状进行调研。对数据资源服务接口清单 | ||||
2 | 数据现状调研 | (第一批)和广东省政务信息资源共享与 开放目录共两大类数据进行调研和梳理, | ||
明确可用于广东省中小企业融资平台各 | ||||
业务场景的部分。 | ||||
梳理智能直融板块的业务规则(挂牌业 | ||||
务、证劵权益登记托管业务、有限合伙企 | ||||
3 | 业务规则整理 | 业财产份额登记托管、非公开发行股票、 | ||
非公开可转换为股票的公司债劵业务、投 | ||||
融资扶持政策、信息披露) | ||||
与包括税局、社保局、南方电网等各政府 | ||||
4 | 融资风控 | 数据接入方式调研 | 数源部门及外部数据供应商等沟通协调 数据接入方式,授权要求,数据使用要求, | |
专 题 | 相关申请流程及数据价格等 | |||
设计数据接入协议,与包括税局、社保局、 | ||||
5 | 数据接入协议制定 | 南方电网等各政府数据源部门及外部数 据供应商等编制数据接入协议,并签署协 | ||
议 | ||||
根据税局、社保局、南方电网等各政府数 | ||||
6 | 授权体系调研 | 据源部门及外部数据供应商等对数据共 | ||
享、使用的具体要求设计数据授权体系 | ||||
数 据 接 入 | 融资风控的外部数据采购费用未纳入本 | |||
服务 | 项目范畴,因此本项目中涉及需要调用外 | |||
部数据采购功能的验收标准为:功能上线 | ||||
7 | 外部数据采购 | 后能够通过测试数据或少量样本数据进 | ||
行功能验收即可,并不在本项目验证对应 | ||||
功能的第三方外部数据的持续供给数据 | ||||
的能力 | ||||
支持多种数据源,采用独立的数据源管理 | ||||
8 | 数据源适配 | 模式,保证数据交换服务的独立性。在数 据访问层抽象出通用数据读、写接口,该 | ||
接口能够适配各种数据源 | ||||
智能数据接线板以前端配置的方式对外 | ||||
9 | 数据接线板接入 | 部数据的接口配置,并且通过图形化界面 帮助用户监控接口的调用和异常情况,实 | ||
现外部数据的快速接入和统一管理。 | ||||
10 | 数据表、文件、接口 | 部分由广东省政务大数据分析平台推送 |
接入 | 至金融局前置机的数据。定期通过前置机 汇总数据,然后上传到平台中。 | |||
11 | 数据接口联调测试 | 1、数字政府实施团队将数据政府的 294项政务数据编目挂接数据对接到中小融平台,我方配合数据政府实施团队进行政务数据接口对接和联调测试工作。2、负责将 50 个金融机构相关数据接口对接到数据政府大数据平台中,配合数字政府实施团队进行政务数据接口对接和联调测 试工作。 | ||
12 | 数 据 采 集服务 | 具体功能包括;数据源、采集功能实现、采集监控系统 | 数据采集是数据的入口,保证数据快速、高效、多样、无误地进入到数据治理平台,满足平台需求,根据数据来源数据量、数据格式的不同,有不同的处理方式,保证 数据采集的高效多样。 | |
13 | 主 数 据 管理服务 | 具体步骤包括:确定主数据对象范围、修订数据标准规范、确定主数据维护流程、历史主数据清洗、主数据应用跟踪和分析、主数据整合、数据图谱建立、数据可视化、主数据安全管 理 | 主数据管理是广东省中小企业融资平台的主数据(Master Data),对需要共享的数据建立统一视图和集中管理,为各业务系统数据调用提供黄金数据。主数据管理使得企业能够集中化管理数据,在分散的系统间保证主数据的一致性,改进数据合规性、快速部署新应用、充分了解客户、加速推出新产品。 | |
14 | 元 数 据 管理服务 | 具体功能包括:自动采集、元数据一站式管理、数据字典上传、权限管理 | 1、自动采集并更新大数据环境内所有元数据。对于自动采集过程中缺失的元数据,提供元数据采集模板,完成元数据的批量导入。2、通过系统自动抓取数据表和更新逻辑,以可视化图形的方式展现表和字段的上下游血缘关系,可以帮助用户对受影响的表或字段进行及时更正,也可以方便内部管理、审计外部监管的需求追溯业务指标、报表的数据来源和加工过程。3、数据字典上传:选择需上传的表所在的库,提供模板下载,上传文件类型为 xlsx,文件大小上限为 10MB 。4、权限管理包括:用户组权限、查看权限、编 辑可见库/表、角色权限。 | |
15 | 数 据 清 洗加工服务 | 具体功能包括:清洗规则、清洗任务调度、清洗数据映射、数据清洗验证、缺失值清洗、格式内容清洗、 逻辑错误清洗 | 由于金融数据来源的多样性以及数据结构的复杂性,需要为这些数据进行清洗、转换与组织才能最终使用。数据清洗加工服务主要提供为保证获取数据的整体质量,针对获取的数据依据审计署行业数据 标准规范进行相应的清洗与转换。 | |
16 | 数 据 质 量监控服务 | 具体功能包括:变动异常扫描、标准质量监控、业务监测预警 | 数据质量监控平台是一款全方位的监控预警分析平台,基于大数据技术帮助数据开发运维人员、数据分析人员和业务人员及时发现数据变动、数据指标、数据质量 等问题,及时定位问题原因,解决数据问 |
题,提升数据质量。 | ||||
17 | 数 据 分 析应用服务 | 具体功能包括:一站式数据分析平台、AI赋能平台 | 数据分析是发现数据价值的主要手段之一,通过使用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括 总结的过程。 | |
18 | 数 据 稽 查服务 | 服务类型包括:数据完整性稽查、数据一致性稽查、数据准确性稽查 | 通过一些稽查工具,对优质、异常数据资产定期进行稽查, 对部门、团队、个人进行排名监督,推广优质数据资产,并对异常数据资产监督,给出改进建议,以达到 对资产持续运营优化的目的。 | |
19 | 数 据 标 准服务 | 数据标准服务包括:基础数据标准、指标标准管理。 | 企业的数据标准化过程,需要在企业层面形成各类数据的标准化执行规范(数据标准),对各类数据的特征构成、约束检验规则、编码规则进行规范,并按照规范的管理流程进行数据标准的制定、发布、审 核、修订。 | |
20 | 数 据 安 全服务 | 数据安全管控 | 监视数据源的访问,自动执行合规控制,保护敏感数据,从而避免数据泄露以及防止滥用,实现包括租户隔离、用户管理、 权限管理、业务审计功能。 | |
智能数据脱敏 | 对广东省中小企业融资平台涉及的敏感数据的进行一站式管理,实现敏感数据智能发现,敏感数据灵活脱敏,敏感数据可 视化管理等功能。 | |||
智能日志监控 | 智能日志监控采用实时大数据流式处理技术框架,对大数据平台用户的操作日志进行实时获取和解析,提供实时日志监控 预警功能。 | |||
21 | 数 据 价 值评估 | 评估分类包括:数据质量价值评估、数据应用价值评估 | 基于对数据资产特点的分析,引入层次分析法构建指标评价体系,采用专家打分法予以权重和得分的赋值,力求构建一个完整的数据价值评估模型,并实现评估结果 的量化分析。 | |
22 | 生 命 周 期管理服务 | 生命周期管理服务包括:数据提取、数据存储、数据处理和分析、数据探索和可视化 | 数据的价值随着时间的推移而演变,通过从初始获取到最终可视化的整个数据生命周期管理来了解每项服务的特性和功能,以便明智地为工作负载选择最合适的服务。数据生命周期包含:提取、存储、 处理和分析、探索和可视化四个步骤。 | |
23 | 智能监管专题 | 第 三 方 金融 机 构 数据采购 | 金融机构网络舆情数据接入 | 预计 7500 家金融机构(暂不包括投资公司、农民专业合作社、社会众筹机构和地方各类交易场所)需要外部第三方网络伤舆情数据。 |
24 | 金融机构司法涉诉数 据接入 | 预计 7500 家金融机构(暂不包括投资公 司、农民专业合作社、社会众筹机构和地 |
方各类交易场所)需要外部第三方金融机构司法涉诉数据。 | ||||
25 | 金融机构关联图谱数据接入 | 预计 7500 家金融机构(暂不包括投资公司、农民专业合作社、社会众筹机构和地方各类交易场所)需要外部第三方金融机 构企业关联图谱数据。 | ||
26 | 智 能 监 管专 题 采 集服务 | 采集方式包括:结构化数据采集、非结构化数据采集 | 智能监管主要为广东省地方金融监督管理局监管的“7+4”类地方金融机构监管提供智能有效解决方案。为便于金融监管部门更为全面准确地掌握地方金融机构风险,智能监管系统对接了省政务数据、第三方外部数据、广东省政务服务网行政业务申请审批数据、地方金融机构上报数据、现有监管系统历史数据等多个数据源,采集接入地方金融机构工商、企业关联图谱、企业税费、司法诉讼、行政处罚、网络舆情、举报投诉、行政业务备案审批、金融机构上报的基本信息、财务和业务数据等 30 多个数据维度,多达 200 多个数据项,采集方式包括结构化采集和非结构 化数据采集 | |
27 | 数 据 分 析应用服务 | 数据分析应用服务 | 在采集数据的基础上,为了挖掘出数据的内含价值及监管价值,并最终通过数据帮助到监管方更好更方便地发现问题,修正问题,更有效地监管市场行为,需要对智能监管模块外部接入数据和内部产生数据进行更深入的数据分析和加工计算,以 满足数据建模和业务应用需求 | |
28 | 智 能 监 管专 题 工 时及 费 用 估算 | 数据计算服务 | 智能监管模块也存在大量的业务数据计算需求,包括:7+4 类金融机构行业分析基本情况、机构运营情况、融资情况等数据汇总计算,7+4 类金融机构企业关联图谱图关系计算,7+4 类金融机构上报数据按各维度、各指标计算汇总,地方金融机构数据报表统计分析,小贷/商业保理公司监管评级动态计算更新,7+4 类地方金融机构风险预警规则动态判断等,涉及数据表格 100 多张。机构完全接入后数据计算规模在 10~20TB 左右,业务关联关系复杂,部分计算为实时计算,时效性要求在 10s 以内。 |
本项目数据治理服务仅限于广东省中小企业融资平台内部数据治理服务,针对在项目服务周期内可对接数据进行数据治理,涉及到的政务数据和第三方数据源,均是以在项目实施周期内融资风控和智能监管专题下实际接入数据项为准,并不以数据源方是能否能持续提供数据作为成功验收标准,而是以完成数据治理相关功能开发作为验收标准。
八、 项目总体架构
广东省中小企业融资平台基于数字政府已有的框图,填补数字政府支持中小企业融资服务发展的空白,通过搭建智能融资、智能供应链/贸易、智能直融、智能风控等子平台解决中小企业与金融机构之间信息不对称的问题,缓解中小企业融资难、融资贵、融资慢的问题。
广东省中小企业融资平台在业务应用层主要提供智能融资、智能供应链/贸易、智能直融、智能风控、智能监管、智能运营等六大子平台。面向企业用户、金融机构用户、政府运营用户提供中小企业融资业务交易、运营管理服务。与金融机构系统集成,同步融资交易信息; 与三方互联网机构系统集成,获取能力支撑。企业用户可通过 Web 或 APP 来使用。技术上,平台基于数字政府系统建设规范要求搭建,底层使用政务云服务提供硬件资源、网络资源以及部分功能服务性资源。
平台整体应用架构设计参见广东省中小企业融资平台总体架构图,整体分为:渠道展示层、应用接入层、业务应用层、业务组件层、基础服务支撑层、数据服务支撑层、数据持久层、基础设施层,遵循数字政府系统要求,设有完善的标准规范与信息安全保障体系。
广东省中小企业融平台总体架构图
九、 项目网络架构
网络架构整体分为互联网接入区、政务云互联网区、政务云政务外网区、政务云大数据服务平台对接区 4 个部分,其中互联网区是客户、金融机构以及第三方数据源接入区;政务云互联网区利用接入网关和 API 网关对外提供服务;政务云政务外网区用于部署授信网络服务、业务核心应用、基础服务、中间件等应用集群;政务云大数据服务平台对接区用于对接外部政务系统和政务大数据服务。
网络架构图如下:
十、 项目服务需求
1.融资风控专题
融资风控专题是针对智能融资、智能直融、智能供应链金融、智能风控四大模块,主要目的是接入政务数据和第三方的数据,通过数据接入、数据采集、数据清洗加工、数据质量监控、数据分析应用等数据治理步骤,解决目前政务系统中数据管理方面存在的重复、不一致、不规范等,将政务数据、第三方数据形成统一的数据基础,满足企业画像、信贷撮合、风险预警等业务需求。
1.1. 数据治理规划服务
1.1.1. 需求调研
汇集实施方金融专家经验,结合在开展各项金融业务时,包括至少 80 家金融机构、至
少 100 家企业主和全省 21 个地市、人民银行、广东银监等政府监管方等各类参与方的具体需求,进行需求调研分析。规划所需要接入,采集,治理,加工,输入的各类数据。数据类型主要包括企业主信息,企业信息,关联关系,行业区域信息及宏观信息等。数源类型主要包括政府监管数据,企业申报数据,三方数据供应商数据、互联网公开数据及平台内部业务数据等。
1.1.2 政务数据调研
调研包括税务、海关、南方电网、民政厅、社保局、市场监督管理局、自然资源厅、发改委、国家统计局、水务局、文化和旅游厅等 20 余个垂直管政府机构及事业单位。其中包
括广东省政务信息资源共享与开放目录共六册文档,每册文档约 1000 页,共包含 3000 余张
库表及 30000 余字段。
具体调研事项包括:
1.调研各政府机关的具体业务流程及业务流程中可能产生、潜在可获取的具体数据。包括报关单、税单、企业年报、工商登记、各项业务申请表及政府机关在日常监管过程中可能产生、采集、存储的数据,调研数百项业务流程,搜集数千张申请表。
2.根据业务及专家经验提取在调研过程中获取发现的对衡量企业风险与经营状况可能有较大影响的字段及数据,撰写数据需求方案。
1.1.3.第三方数据调研
调研包括舆情数据、运营商数据、进出口数据、专利评估数据、消费数据、产业及行业数据等多类数据在内的 11 家三方数据供应商。具体调研内容包括:
1. 前期沟通,获取数据类型、维度及数据字典。
2. 根据数据覆盖范围,数据饱和度,数据规模等评估数据价值。
3. 获取一定量的样本数据及测试数据。根据样本数据及测试数据评估数据质量。
4. 评估数据接入方式、合规性、授权要求及接入工作量。
5. 评估商务报价是否合理与商务谈判
1.1.4.互联网公开数据调研
调研包括微信、微博、政府网站等在内的互联网公开数据源,包括重大新闻,舆情事件,热点评论,政策信息等重要数据。
1.1.5.政府监管需求调研
调研金融局各处室对于企业监管方面的具体需求,根据业务需求设计数据需求方案。
1.1.6.金融机构风控需求调研
调研金融机构对于信贷风控的具体需求。根据业务需求设计数据需求方案。
1.1.7.企业数据需求调研
调研企业作为信贷需求方的业务需求,包括在企业画像希望看到的相关信息,产业及行业信息等。
1.1.8. 数据现状调研
对广东省政务大数据中心目前的数据现状进行调研。对数据资源服务接口清单(第一批)和广东省政务信息资源共享与开放目录共两大类数据进行调研和梳理,明确可用于广东省中小企业融资平台各业务场景的部分。
其中广东省政务信息资源共享与开放目录共六册文档,每册文档约 1000 页,共包含 3000
余张库表及 30000 余字段。广东省政务大数据中心数据资源服务接口清单(第一批)共包含
60 个接口清单。共筛选出 294 张库表或接口,6000 余字段。
撰写并向包括税局、社保局、南方电网各政府机构提供数据调研方案,实体沟通并交流相关数据获取的可能性。
规划金融机构回写数据字段模板,设计并规划平台自身产生的业务数据。
1.1.9. 业务规则整理
梳理各项业务的规则,包括:
1、挂牌业务:收集整理挂牌业务申请规则,企业信息与挂牌业务匹配规则,挂牌申请报告生成规则,挂牌申请报告推送规则,挂牌预警规则,终止挂牌预警指令生成规则,终止挂牌预警指令推送规则。
2、证券(权益)登记托管业务:收集整理证券(权益)登记托管业务申请规则,企业信息与证券(权益)登记托管业务匹配规则,证券(权益)登记托管申请报告生成规则,证券(权益)登记托管申请报告推送规则。
3、有限合伙企业财产份额登记托管:收集整理有限合伙企业财产份额登记托管业务申请规则,企业信息与有限合伙企业财产份额登记托管业务匹配规则,有限合伙企业财产份额登记托管申请报告生成规则,有限合伙企业财产份额登记托管申请报告推送规则。
4、非公开发行股票:收集整理非公开发行股票业务申请规则,企业信息与非公开发行股票业务匹配规则,非公开发行股票业务申请报告生成规则,非公开发行股票业务申请报告推送规则。
5、非公开发行可转换为股票(股权)的公司债券业务 (可转债业务):收集整理可转债业务申请规则,企业信息与可转债业务匹配规则,可转债业务申请报告生成规则,可转债业务申请报告推送规则。
6、投融资扶持政策:收集整理运行中的投融资扶持政策,梳理扶持政策标签类型及具体标签。
7、信息披露:收集整理信息披露规则,信息披露对象管理规则,信息披露推送规则。
1.1.10. 数据接入方式调研
针对中小企业融资平台的融资风控建设涉及到的广东省政务大数据中心的数据、外部供应商数据,需提供数据接入方式的调研服务,包括数据接入方式、授权要求,数据使用要求,相关申请流程及数据价格等。
1.1.11. 数据接入协议制定
设计数据接入协议,与包括税局、社保局、南方电网等各政府数据源部门及外部数据供应商等编制数据接入协议,提交给协议的签署主体。
1.1.12. 授权体系调研
根据税局、社保局、南方电网等各政府数据源部门及外部数据供应商等对数据共享、使用的具体要求设计数据授权体系。
1.2.数据接入服务
为广东省中小企业融资平台提供基于融资风控专题中数据接入服务所需的政务数据治理服务,所涵盖的范围为税务、市场监管、民政、农业等 39 个相关单位的政务数据治理。
1.2.1 外部数据采购
外部数据采购是对政务数据的有利补充,通过利用外部数据与数字政府的政务数据进行有机结合,则将对中小微企业贷款申请过程中欺诈风险识别的准确性造成严重的影响。本项目需要结合广东省中小微企业融资风控专题,在省政务大数据中心的共享数据基础上,提出相关外部非政务数据的调研情况、数据价值以及具体使用方向。
但由于专家评审意见,融资风控的外部数据采购费用未纳入本项目范畴,因此本项目中涉及需要调用外部数据采购功能的验收标准为:功能上线后能够通过测试数据或少量样本数据进行功能验收即可,并不在本项目验证对应功能的第三方外部数据的持续供给数据的能力。
1.2.2. 数据源适配
支持多种数据源,采用独立的数据源管理模式,保证数据交换服务的独立性。在数据访问层抽象出通用数据读、写接口,该接口能够适配各种数据源。
数据库:支持 MySQL、Oracle、PostgreSQL、SQL Server、MongoDB、HDFS; API 接口:json/xml、http/https、post/get;
文件:CSV、TXT、XLS/XLSX;
人力需求:数据库适配 5 人月,API 接口适配 8 人月,文件适配 5 人月。
1.2.3. 数据接线板接入
智能数据接线板以前端配置的方式对外部数据的接口配置,并且通过图形化界面帮助用户监控接口的调用和异常情况,实现外部数据的快速接入和统一管理。
图表: 智能数据接线板
接线板带来的好处有:
◼ 减少开发工作量,加快接口上线速度
数据接线板帮助用户通过前端界面配置接口信息,大大减少了代码开发的工作量。对同一类型的接口,可以有效减少前期技术沟通的工作量,帮助接口快速上线。
◼ 监控接口使用情况,及时发现异常问题
数据接线板通过图形化的报表界面,帮助用户实时了解接口的调用量、并发量、断线、超时等信息,使用户对接口使用情况一目了然。
◼ 路由控制接口选择,保障业务不断线
数据接线板的智能路由功能可以自动切换主备线路,在多个主备接口中选择最优的数据源,保障业务不受异常接口的影响。
◼ 集中管理外部数据与内部应用系统的对接
通过数据接线板接入外部数据并分发给内部应用系统的形式,可以帮助用户清晰地管理数据流向与数据线路,减少多系统对接的沟通成本。
⮚ 智能数据接线板产品功能
1) 接口配置
在接口配置功能中,用户可以通过前端界面对外部接口信息进行配置,比如接口基本信息(编号、名称等),请求信息,输入项,请求报文和响应报文等,实现由前端页面配置代替代码开发的工作。
2) 智能路由
用户可以自由配置一个路由,在其中选择主备接口并通过前端界面配置完成入参的映射关系。目前有主备/权重两种路由方式可供选择。
3) 智能监控
智能监控会展示所有接口的调用信息,可以通过搜索和状态筛选快速定位到需要查询的接口,智能监控展示的信息有:
◼ 接口的最新状态(正常、超时、报错、无调用)
◼ 接口近 15 日或近 12 个月的调用量、命中量的趋势折线图
◼ 接口的五维评分图(响应时间、报错率、命中率、数据准确性、数据新鲜度)
用户可设置预警阈值,在接口调用量、并发量逼近阈值时接线板自动通知用户,无需人工监控。
4) 日志管理
◼ 日志管理可让用户查询接线板的操作日志和接口的请求流水日志;
◼ 在操作日志部分,可以查询到任一用户在任一时间的任一操作行为,便于对接口配置历史信息的管理。支持按照用户和时间的筛选功能;
◼ 在请求流水日志部分,可以查询到各接口的请求流水信息,支持按照时间和流水号的筛选功能。
5) 数据缓存与多业务系统管理
◼ 支持将已经调取的数据缓存,避免重复调用造成的经济浪费;
◼ 提供内部业务系统的账户管理与流量分配功能。
1.2.3. 数据表、文件、接口接入
广东省政务大数据分析平台负责将政务数据推送至金融局前置机的数据,政务数据项目主要包括无条件共享和有条件共享数据。由广东省政务大数据分析平台定期通过前置机汇总数据上传到中小企业融资平台中。
1.2.4.数据接口联调测试
1、数字政府实施团队将数字政府的 294 项政务数据编目挂接数据对接到中小融平台,我方配合数字政府实施团队进行政务数据接口对接和联调测试工作。
2、负责将 50 个金融机构相关数据接口对接到数字政府大数据平台中,配合数字政府
实施团队进行政务数据接口对接和联调测试工作。数据接入服务的具体服务要求如下:
序号 | 服务参数 | 服务指标要求 |
1 | 数据接口配置 | 支持通过前端可视化界面对接口信息进行配置,如接口基 本信息(编号、名称等),请求信息,输入项,请求报文和响应报文等。 |
2 | 数据接入路由 | ▲除主接口外,支持接入多个备用接口,在主接口超时或 断线时,及时切换至备用接口;(提供功能截图)。 |
3 | 数据接入服务 | 支持将已经调取的数据进行缓存。 |
4 | ▲支持在线查看历史操作日志和接口的请求流水日志(提 供功能截图)。 | |
5 | ▲支持依据接口状态及用户评价对接口进行自动打分(提 供功能截图)。 | |
6 | 通过图形化的报表界面,展示接口的调用量、并发量、断 线、超时等信息。 |
1.3 数据采集服务
数据治理是中小融平台业务系统中的重要组成部分,数据创造价值,把数据良好的利用起来,能创造更大的价值。数据采集是数据的入口,保证数据快速、高效、多样、无误地进入到数据治理平台,满足平台需求。根据数据来源、数据量、数据格式的不同,我们会有不同的处理方式,保证数据采集的高效多样。数据采集包括政务数据和第三方数据。
1.3.1 数据源
支持多种数据采集,采用独立的数据源管理模式,保证数据交换服务的独立性。在数据访问层抽象出通用数据读、写接口,该接口能够适配各种数据源,包括数据库适配、API 接口适配、文件适配等等。
1.3.2 采集功能实现
采集过程包含了数据抽取、传输、加载和处理功能模块的描述以及采集系统对各种数据源适配的方式。
采集系统首先制定采集策略,根据采集策略,匹配业务场景,使用数据采集系统的调度控件,分为:批量数据采集和实时数据采集。
通过调度系统可以可视化化的看到采集任务的执行进度、执行情况、是否有异常、何时触发 job 执行等,大量 job 并发时可以很好的调度,及时发现异常 job 并处理。
1.3.3 采集策略制定
根据不同的数据存储方式,需要采取不同的对策开展数据采集工作,如数据库中的数据、数据库的类型、日志类型的数据、文件等,主要分为政府提供的数据的采集策略和非政府第三方提供的数据的采集策略。根据制定的采集策略选择合适的数据采集工具。
1.3.4 批量数据采集
批量数据采集支持海量结构化,非结构化,半结构化数据的采集和存储搭建数据湖。对于已有的历史存量数据可以采用批量采集的形式,采集到数据治理平台。
批量数据采集的特点是:
1) 资源配置优化,批量定时导入,提高系统资源的利用率。
2) ETL 采集工具多样化,覆盖多种业务场景,配置方法简单一致。
3) 失败智能补救重试机制,减少人工操作。
4) 预警日志定向发送,批量数据操作发给对应业务线负责人,降低影响面。
1.3.5 实时数据采集
对于增量数据、外部第三方数据、网页数据以及实时计算所需数据,可以选择实时数据导入。数据信息的实时入库,大幅度降低了等待时长,提升客户体验。
实时数据采集的特点是:
1) 自动触发,对源数据方 DDL 操作,实时监控并触发。
2) 主动采集,埋点数据主动获取,丰富数据库,提升维度塑性。
3) 自研发可定制采集工具,方便对某一段数据进行卡点操作。
1.3.6 采集监控系统
数据采集的三大要点:
(1)全面性:数据量足够具有分析价值、数据面足够支撑分析需求。
(2)多维性:数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。
(3)高效性:高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。
因此数据采集系统的监控尤为重要,通过日志监控系统监控导入任务是否正常运行、执行情况、异常情况、异常点等,以便及时恢复数据导入任务,保证数据的完整性,亦可以分析数据操作人员的异常行为,确保数据不外露。
数据采集的具体服务要求如下:
序号 | 服务参数 | 服务指标要求 |
1 | 数据库类型 | 支持 MySQL/SQL Server/PostgreSQL/Oracle/HDFS/FTP等 6 种及以上异构数据源,通过图形配置界面完成数批量 据接入工作。 |
2 | 实时数据采集 | ▲支持在不增加数据库负载的前提下从 2 种及以上数据 源(PostgreSQL、MySQL 等)将数据实时同步到目标数据源(提供功能截图)。 |
3 | ▲支持用户配置 FlinkSQL 脚本,在数据实时同步过程中 完成加工计算(提供功能截图)。 | |
4 | 支持 7 天内同步数据断点自动续传 | |
5 | 支持用户实时查询变更的数据 | |
6 | ▲支持在前端展示实时采集的流量数据及任务状态(提供 功能截图)。 | |
7 | 数据采集监控 | 支持实时获取并解析数据库操作日志 |
8 | ▲支持根据用户自定义规则对 3 种以上的异常操作行为 进行自动发现预警(提供功能截图) | |
9 | ▲支持根据智能分析模型对用户个性化的异常操作行为 进行预警(提供功能截图) |
1.4 主数据管理服务
主数据管理针对广东省中小企业融资平台的主数据(Master Data),对需要共享的数据建立统一视图、集中管理,为各业务系统数据调用提供黄金数据。主数据管理实现集中化管理数据,在分散的系统间保证主数据的一致性,改进数据合规性、快速部署新应用、充分了解客户、加速推出新产品。从 IT 建设的角度,主数据管理可以增强 IT 结构的灵活性,构建覆盖整个平台范围内的数据管理基础和相应规范,并且更灵活地适应平台业务需求的变化。它是一整套用于生成和维护企业主数据的规范、技术和方案,用于保证主数据的完整性、一致性和准确性。
1.4.1 确定主数据对象范围
在茫茫数据大海中,首先要识别主数据和业务数据,通常意义上讲,数据分为基础数据、主数据、条件数据、事务型数据、结果型数据和报表数据,识别主数据的标准为是否最终用户使用、数据的稳定性、数据被重复使用或参考的频率等。
明确了主数据对象,以及其应用的业务范围和系统范围后,主数据治理的对象范围基本
确定。
1.4.2 修订数据标准规范
根据广东省中小企业融资平台的特点,建立符合平台需求的标准规范。主数据的标准规范一般包括主数据对象的数据字典、数据分类、数据编码规则、数据描述规则,确定主数据对象的完整性规则、唯一性规则、规范性规则。
1.4.3 确定主数据维护流程
主数据维护流程一般定义为主数据新建流程、主数据修改流程、主数据冻结/解冻流程、主数据归档流程。为何要使用流程呢?因为不论是否搭建主数据管理系统(MDM 系统),主数据都是由使用者提需求,相关部门做审核控制后编码。
只要是系统能够控制的,就不应该由人来做控制,所以在主数据流程讨论以及编制的流程文档中,需要把每一个流程中系统的控制点、默认值设定、推导值设定、唯一性校验等都需要体现出来。
1.4.4 历史主数据清洗
结合业务应用需求、数据特点、数据用途等,制定合理的数据清洗规则和模型,使数据更满足业务需求和建模需求。
1.4.5 主数据应用跟踪和分析
在企业经营管理上,没有管理者会去关心主数据应用的怎么样,他们主要关心的是销售额是否可以提升、新市场开拓的如何、成本控制的结果怎么样等分析数据。但在主数据管理部门,他们更关心的是主数据质量,包括采标率、活跃度、申请质量、应用质量、编码效率等,这是确保主数据高质量运行的有效抓手,构成了主数据申请、主数据监控和主数据清洗的全生命周期闭环。
对主数据采标率的分析,可以逐步清理干净非采标数据;对活跃度的分析,可以定期清理非动态的主数据;对数据编码进度的监控,可以提高编码效率;对数据应用质量的监控,可以确保在主数据标准规范调整后(唯一性、完整性和规范性)的数据清洗。
1.4.6 主数据整合
整合并存储所有业务系统和渠道以及外部的客户及潜在客户的信息:
(1)从相关系统中抽取客户信息,并完成客户信息的清洗和整合工作,建立企业级的客户统一视图;
(2)客户主数据管理系统将形成的统一客户信息以广播的形式同步到其他各个系统,从而确保客户信息的一致;
(3)从外部互联网采集和抽取各种潜在客户列表,以及补充现有客户的信息,例如到一些指定的政府和协会网站采集潜在的客户信息或是现有客户的相关商业情报,补充企业内
部数据的不完整。
1.4.7 数据图谱建立
根据业务分析和数据模型设计,建立用户、产品、公司、个人等的关联图谱,从不同的维度分析客户的需求,用数据发现潜在价值,提高数据的商业价值。
1.4.8 数据可视化
通过可视化页面,观察主数据的变化趋势,及时发现新增用户、满足现有客户的不同层面的需求。既方便工作汇报,又能挖掘数据的更大价值。
1.4.9 主数据安全管理
主数据的安全性关系着政府、企业最重要的数据资产的安全,提供一系列严密的安全规范,全面保障平台及数据安全。主要包括网络安全、系统安全、数据安全等。
网络安全:通过网络入侵检测、防火墙等技术,防范网络病毒攻击、保障服务器安全。系统安全:通过精确的权限分配、详细的操作日志,落实操作责任人,保障系统安全。数据安全:制定数据安全标准,对敏感数据进行检查及处理,保障数据安全。
安全管理的具体服务要求如下:
序号 | 服务参数 | 服务指标要求 |
1 | 主数据更新维护 | ▲支持以画布模式编辑主数据模型,以拖拽的方式进行可 视化数据清洗及建模(提供功能截图)。 |
2 | 支持自动计算重合率、缺失率等 3 个及以上主数据跟踪指 标并通过图表自动展示 | |
3 | 主数据安全 | ▲支持自动发现 15 种以上的敏感数据类型(如手机号、身份证、企业组织机构代码等)并提供置信度,无需人工 配置(提供功能截图)。 |
4 | ▲支持 25 种以上的数据脱敏方式,如数据截断、替换、 掩码、同态转换、密钥加密、仿真脱敏等(提供功能截图)。 | |
5 | ▲支持 6 种及以上密钥加密方法(提供功能截图)。 | |
6 | ▲支持 5 种及以上仿真脱敏方法(提供功能截图)。 | |
7 | ▲支持用户自定义添加脱敏方法,自定义选择加密字符位 置等(提供功能截图)。 | |
8 | ▲支持用户上传添加脱敏方法与敏感数据识别方法(提供 功能截图)。 | |
9 | 支持自动生成脱敏视图,脱敏视图依据用户修改的加密脱 敏规则实时变化 |
1.5 元数据管理服务
1.5.1 自动采集
自动采集及更新数据治理的大数据平台内所有元数据。对于自动采集过程中缺失的元数据,提供元数据采集模板,完成元数据的批量导入。
1.5.2 元数据一站式管理
1.5.2.1 数据地图
a) 根据业务线展示所有库的分布(初始状态,此页面为空);
b) “点击排行榜”根据每个用户自己的点击、操作、使用频率进行排行;
C) 点击任意业务线或地图内数据库,会放大相应业务线内所有数据库。
图表: 数据地图
1.5.2.2 血缘关系
通过系统自动抓取数据表的生成和更新逻辑,以可视化图形的方式展现表和字段的上下游血缘关系,可以帮助用户对受影响的表或字段进行及时更正,也可以方便内部管理、审计或外部监管的需求追溯业务指标、报表的数据来源和加工过程。
1.5.2.3 库、表、字段检索
可支持库检索、表检索和字段检索。
库检索:根据业务线归属与数据层从已有的信息库中索取、找出所需要的数据库信息的过程,及时更新数据库相关动态,有效标注新增和停用的数据库信息。
表检索:方便高效准确的获取数据信息,展示表的上下级血缘关系。
字段检索:有效解释和筛选字段,对新增未知无效的数据字段进行及时修改编辑的过程。
1.5.3 数据字典上传
可支持数据字典的上传、模板下载及预览。
1. 上传文件
a) 先选择需上传的表所在的库;
b) 提供模板下载;
c) 上传文件类型:xlsx;
d) 文件大小上限为:10MB。
2. 预览
a) 将上传文件的内容解析成表格;
b) 只展示匹配上的字段;
1.5.4 权限管理
序号 | 服务参数 | 服务指标要求 |
1 | 数据库类型 | 支持 HIVE 大数据平台组件。 |
2 | 元数据采集与分析 | 支持自动采集大数据平台上所有重要元数据信息。 |
3 | 支持用户通过技术信息与业务据信息对元数据进行检索 查询 | |
4 | ▲支持自动解析数据加工血缘信息,自动生成数据表血缘 上下游图谱(提供功能截图) | |
5 | ▲支持自动解析数据加工血缘信息,自动生成数据字段血 缘上下游图谱(提供功能截图) | |
6 | 支持用户自定义查看数据血缘层级数,系统自动过滤 txt 文件等冗余节点 | |
7 | 元数据标准映射 | ▲支持通过自然语言算法将元数据信息与数据标准进行自动模糊匹配,自动生成元数据信息与数据标准项的映射 关系,并支持用户手动修改(提供功能截图) |
根据不同业务线,分配用户组权限等级:查看权限、编辑权限、角色权限。权限管理的具体服务要求如下:
1.6 数据清洗加工服务
其中广东省政务信息资源共享与开放目录共六册文档,每册文档约 1000 页,共包含 3000
余张库表及 30000 余字段。广东省政务大数据中心数据资源服务接口清单(第一批)共包含
60 个接口清单,共筛选出 294 张库表或接口,6000 余字段需要清洗加工。除了政务数据以
外,针对第三方商业数据进行清洗加工,第三方公司购买数据需求,共 12 类数据进行数据清洗加工。
由于金融数据来源的多样性以及数据结构的复杂性,需要为这些数据进行清洗、转换与组织才能最终使用。数据清洗加工服务主要提供为保证获取数据的整体质量,针对获取的数据依据审计署行业数据标准规范进行相应的清洗与转换。
数据清洗特点:
1、数据清洗规则多源化,统一配置和清洗规则智能检测,减少冗余,并可定制化开发。
2、数据清洗映射可视化,根据映射图谱索引数据关联信息,并可以根据 OCR 技术,录入已有映射信息。减少人工维护,降低沟通成本。
3、清洗数据类别多样化,对数据进行多维度的信息清洗,提高数据质量。
1.6.1 清洗规则
根据业务需求制定清洗的规则,在新增清洗规则时,可以根据是否启用规则,以及启用规则的有效时间。在启用后,对采集来的原始数据根据相关规则进行数据的清洗。
主要对下面的数据进行制定规则: 1)缺失值数据
这一类数据主要是一些重要的信息缺失,如客户的企业信息缺失、业务系统中主表与明细表不能匹配等。
2)格式内容数据
对于这一类数据,特别是维表中会出现这种情况,将重复数据记录的所有字段导出来,让客户确认并整理。通过编写 SQL 数据转换脚本对原始数据进行清洗转换,进行转换任务模板制作。如:日期格式信息的格式化。
3)逻辑错误数据
由于业务系统不够健全,在接收输入后没有进行相关处理而产生的脏数据。如日期格式不正确、日期越界等。
4)敏感数据
在采集的数据中报告一些隐私信息,对于这些信息是否进行脱敏加密。内置 10 余种敏感数据发现算法,通过对数据的采样分析,自动扫描发现系统中的敏感字段及类型。如客户,企业的一些证件信息,地址信息。
1.6.2 清洗任务调度
根据数据源采集的数据的频度不一致,制定不同的清洗任务,主要分为实时,准实时,定时的任务。该模块可以统一的对所有的清洗任务进行监控,创建新的清洗任务时匹配清洗规则,通过点击启用清洗任务,设置有效期限,进行数据的清洗,通过查看详情,查看整个任务的清洗状况。
(1)实时清洗任务
数据信息的时效性要求较高,并且没有大量的清洗内容的情况,可以实时对采集的数据进行监控,一旦有数据的 DDL 操作,及时的清洗并写入数据仓库。
(2)准实时清洗任务
数据信息不是实时更新,清洗内容相对稍微复杂,可以创建 15min 或者 20min 的任务,进行数据的清洗。
(3)定时清洗任务
对一些数据量比较大,并且是对数据进行历史类型的数据进行清洗,可以按照天、周等时间点进行创建任务。
(4)清洗任务预警
任务的运行状况的实时查看,对清洗任务的失败程度和影响层面的不同,进行预警邮件。
1.6.3 清洗数据映射
将原始数据与数据规划进行映射,分析原始数据的表名、字段名以及字段含义,将原始数据表、字段与政务大数据中心的数据规范表、字段进行映射。
映射规则包含所有数据规划元素的原始数据对应关系及对应说明。在原有数据规划不能满足本地化数据规划加工的情况下,扩充数据规划的基础表数量,同时扩充映射规则。
映射的过程,即是原始表与数据规划表梳理的过程,主要工作内容如下: 1)原始表—>规划表,N->1 关系处理。
2)原始表—>规划表,1->N 关系处理。
3)原始表字段—>规划表字段,通过字段逻辑关系,形成 N->1 关系处理。
4)根据本地化数据表情况,调整规划表数据类型,比如企业名称数据字段长度已经超出规划表字段长度,如果不调整规划表字段长度,可能发生采集出错、丢失数据等现象。
1.6.4 数据清洗验证
数据验证主要根据下面的几种对比检测,生成验证结果报告,根据业务的需求,可以自由的搭配各种指标对比信息。
1)与报表数据比对
在整体数据分析结束后,按照标准的报表统计口径对业务数据进行加工和统计。将结果和采集到的报表数据进行比对,从整体角度判读全局数据分析的准确性和各业务模块数据清洗加工后的准确性,完成数据较粗粒度的验证。
2)金融数据与原始数据比对
通过数据分析交叉检查,数据报表比对的验证,完成粗粒度,全数据范围的验证工作,保证了金融数据库全局的准确性,在此基础上对金融数据库中的业务数据与原始数据进行比对,按照分析加工的流程反向关联业务数据,判断清洗加工过程的正确性,完成数据较细粒度的验证工作。
3)数据加工组交叉检查
数据加工组在数据加工过程中,不同组员承担不同业务的数据加工工作。在数据加工各迭代阶段通过交叉检查的方式,进行粗粒度的数据验证。从数据规划对应的角度,发现数据
加工可能存在的偏差,提高数据加工准确度。 4)业务流程模拟验证
按照正规业务流程对加工后业务数据进行业务流程模拟校验,按照业务流程正向或反向进行数据演变模拟及关联跟踪,从流程化角度判断各业务模块间业务数据耦合的准确性及数据分析加工的准确性,完成极细粒度的数据验证内容。
5)垃圾数据检查
在数据分析过程中,金融单位数据库一定程度上存在着垃圾数据的情况,按照实际情况在数据分析结束后,对金融数据库的业务数据进行垃圾数据的划定,并进行标识。从而进行细粒度的数据验证,解决垃圾数据对数据应用过程中的影响,变相提高金融数据库的强壮性和适用性。
1.6.5 缺失值清洗
缺失值是最常见的数据问题,处理缺失值主要分以下四个步骤进行:
1、确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性分别制定缺失值。
2、去除不需要的字段:不需要的字段直接删除,但不需要字段的清洗每一步都需要备份。
3、填充缺失内容:对于缺失的重要字段,通过其他政务部门的数据源进行补全,但需确保数据正确,予以信息展示。对于融资风控场景下的模型训练和建设环节,可通过①以业务知识或经验推测填充缺失值;②以同一指标的计算结果(均值、中位数、众数等)填充缺失值;③以不同指标的计算结果来填充模型样本的标签或字段缺失值。
4、重新取数:如果某些数据非常重要又缺失率高,需要反馈给数字政府团队,了解了解是否有其它渠道获取相关数据。
1.6.6 格式内容清洗
如果数据是由人工收集或用户填写而来,则有很大可能性在格式和内容上存在一些问题,格式内容问题主要有以下几类:
(1)时间、日期、数值、全半角显示格式不一致
这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式。
(2)内容中有不符合的字符
某些内容可能只包括一部分字符,比如身份证号是数据+字母。最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。
(3)内容与该字段应有内容不符
姓名写成性别,身份证号写了手机号等等,均属于这种问题。该类问题均不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端没有校验。还有可能导入数据时部分或全部存在列没有对齐的问题,因此要详细识别的问题类型。
1.6.7 逻辑错误清洗
逻辑错误清洗的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果偏离。主要包含以下几个步骤:
(1)去重
去除因字符、空格等原因而产生的相同数据。
(2)去除不合理值
去除因逻辑等原因而产生的不合理数据。
(3)纠正矛盾内容
纠正矛盾内容中有些字段是可以相互验证的,例如身份证号是 1101111980XXXXXXXX,然后年龄填 18 岁。在这种时候,需要根据字段的数据来源,来判定哪个字段提供的信息更为可靠,去除或重构不可靠的字段。
1.7 数据质量监控服务
数据质量监控平台是一款全方位的监控预警分析平台,基于大数据技术帮助数据开发运维人员、数据分析人员和业务人员及时发现数据变动、数据指标、数据质量等问题,及时定位问题原因,解决数据问题,提升数据质量。
数据质量监控平台有如下特色:
1、运用灵活配置的规则引擎、清晰明了的数据可视化报表、高效的大数据扫描引擎。
2、提供变动异常扫描、业务监测预警、标准质量管控三大功能,并可自定义多个监控项目,导出预警详情。
1.7.1 变动异常扫描
对表单的数据量大小、记录数、字段饱和度等多方面进行多重监控,一旦出现异常,则及时预警,从底层严格杜绝潜在的业务数据风险,层层严格把关。
1.7.2 标准质量管控
1、规则组管理:通过界面配置的方式,可轻松配置多种检测规则,同时支持使用 SQL进行规则逻辑制定。多种规则可随意进行组合,灵活适配不同业务场景下的数据监测。
2、监控任务配置:支持配置单次、周期性监控任务,分配需要扫描的库表,选择监控数据抽样方式。监控任务配置后,可方便查看到任务执行情况。
3、质量报告输出:可通过手动、定时等方式生成标准质量报告。报告通过数据定义、
数据值这两个视角多维度地向用户展示整体数据质量、分库数据质量、各规则组对应数据质量。
4、质量问题查询:可通过对库、表筛选,快速定位质量问题,粒度可到字段级别。
1.7.3 业务监测预警
1、项目预警每日播报:平台会根据用户设定的项目规则(项目可包括业务场景、KPI等),每日更新预警,及预警的具体内容,方便用户管理。
2、项目规则多元预警配置:用户可自主配置项目规则,规则包含不同指标(支持单值、多值两类的指标配置),个性化定制项目的预警方案。
3、预警分层管理:用户可根据需要,对指标设置不同的预警等级,方便分类管理。
4、项目便捷历时回溯:历史资料便捷查询,方便用户从“找数”、“追事”、“查人”三方面搜索管理项目。并提供项目间指标对比、贡献力、趋势预测等分析服务,使历史资料更具价值。
每日更新预警的具体服务要求如下:
序号 | 服务参数 | 服务指标要求 |
1 | 数据库类型 | 支持 HIVE 大数据平台组件。 |
2 | 监控规则配置 | ▲支持通过前端可视化的形式对 3 种或以上数据质量规 则的配置进行配置(提供功能截图)。 |
3 | 数据质量监控内 容 | ▲支持对数据表规模、数据字段内容、数据值 3 种数据形 态的异常情况进行监控(提供功能截图)。 |
4 | 监控任务管理 | 支持运用大数据 SPARK 引擎对亿万级别数据对象进行数 据质量检查任务的扫描和计算。 |
5 | 支持自动化定时扫描与检查数据质量,并提供监控页面展 示任务运行信息。 | |
6 | ▲支持对异常数据进行抽样预览(提供功能截图)。 | |
7 | ▲支持以可视化报告的形式展示数据质量检测结果并根 据内容自动排版布局,支持将数据报告下载导出(提供功能截图)。 |
1.8 数据分析应用服务
数据分析是发现数据价值的主要手段之一,通过使用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
1.8.1. 一站式数据分析平台
帮助企业快速搭建面向全员的数据分析平台,让每一个成员都能充分了解并利用他们的数据,辅助决策、提升业务。一站式数据分析平台,带来了视觉效果和交互体验的双重升级,
真正实现了超大数据量的自助式分析。主要特点如下所示:
1、简单易用、急速上手:面向对象是企业中的每位成员,它极易上手,对于完全没有接触的用户,跟着学只要半个小时即可制作出数据报表。
2、支持超大数据量分析:Spider 引擎支持直接对接读取数据库表进行分析,适用于对实时性要求较高的数据分析场景,也解决了大数据量多维分析的难题。
3、自助式分析:用户可以根据自身需求,将业务数据包做成自定义的处理,再进行探索式 OLAP 分析,如同享用自助盛宴。
一站式数据分析平台产品功能:
4、多源数据整合:一键链接百种数据源,支持多数据源关联,消除孤岛;
5、业务包数据管理:基于业务需求分类数据包,开放权限给指定用户,清晰明了;
6、自动数据关联:一键读取表间字段关联,一次配置可多次重复使用,解放 IT 人力;
7、智能字段转义:自动与手动双重字段转义设置,更有 ExcelView 傻瓜式指引;
8、可视化 ETL:内置可视化的 ETL 工具,支持对原始数据进行二次加工处理;
9、Spider 大数据引擎:高性能计算引擎,以轻量级架构实现大体量数据的计算;
10、可视化探索式分析:自由布局分析报告,进行各类可视化的 OLAP 分析操作,洞察数据;
11、分发与共享:一键分享报告,支持挂载到数据决策系统节点分发给各相关单位查阅。
1.8.2 AI 赋能平台
AI 赋能平台是拥有自主知识产权的国际领先的人工智能产品套件,能力覆盖 AI 应用开发、运行、管理的全生命周期,旨在为企业、合作伙伴和开发者提供低门槛、能力全、高性能、企业级的 AI 赋能平台,助力银行、企业优化运营效率,提升决策水平,开拓全新商业模式,全面实现 AI 时代的业务转型。
AI 赋能平台产品功能:
1、建模过程“托拉拽”: 通过 python 等编程语言建模门槛高,不直观,业务不友好而可视化计算图将模型训练的全流程用可视化,易理解的方式进行展示,用户通过简单的拖拉拽进行建模,摆脱了代码繁琐的实现与调试,更加聚焦于业务;
2、简单脚本生成高维海量特征:特征工程引擎内置了建模专家多年的经验,提炼抽象了强大的特征工程方法,以方便易用的函数表达形式使用,降低使用门槛,且拥有强大的计算能力,以及线上线下一致的运行态简单部署;
3、模型可视化/可解释:提供了直观、易懂的模型可视化和可解释功能,不仅可以助力建模工程师对模型进行分析优化,更为业务人员提供了理解模型工作原理的重要渠道,极大缓解了企业 AI 实践过程中普遍存在的“黑盒”作业问题,让模型的应用更透明、更可控; 4、AutoML 自动建模:大型企业内场景多且杂,建模专家贵且少,模型探索周期长,效
果不理想自动模型开发,用 AI 来训练 AI 模型,旨在降低建模门槛,帮助建模人员解决高维特征衍生、特征组合扩展和训练超参数调节等高难度问题,在大幅缩短项目周期的同时,提升模型效果和整体ROI;
5、深度学习能力:凭借神经网络结构强大的特征提取能力,与 GPU 搭配实现的高性能训练;
6、各类 AI 应用一站式支撑:集成多种 AI 训练和预估引擎,一站式支持从机器学习到深度学习、从自然语言处理到知识图谱等各类 AI 应用;
7、高性能:几百倍于 Spark 的计算效率,凭借强大的端到端实时计算能力,在保证高维模型效果的同时,完美支持在线机器学习应用全流程;
8、可扩展:通过自主研发的统一特征计算引擎,支持用统一特征脚本完成线上/线下特征处理过程,同时兼容第三方计算框架,做到一次开发,随需运行。集成了 TensorFlow 等主流开源计算框架,覆盖从训练到管理、从应用到监控的模型全生命周期,同时兼容第三方模型的导入/导出、版本管理和上线部署等,帮助企业实现一站式模型生命周期管理,构建流程标准,提升作业效率;
9、企业级:用户可以基于 Notebook,一站式、交互式地完成代码编写、运行、可视化数据,结果反馈的过程。能力覆盖数据清理、统计建模、构建和训练机器学习模型、可视化数据等开发全流程。
1.9 数据稽查服务
通过一些稽查工具,对优质、异常数据资产定期进行稽查,对部门、团队、个人进行排名监督,推广优质数据资产,并对异常数据资产监督,给出改进建议,以达到对资产持续运营优化的目的。可以带来的好处有:
1、及时掌握数据完整性、一致性和准确性;
2、保证 DM 获取层、基础层、衍生层、复合指标层以及视图层的数据质量,洞察欺诈嫌疑。
1.9.1 数据完整性稽查
实体是否在规定的时间点提供了并加工生成了数据;实体中指标是否完整覆盖订阅指标;检查数据中指标是否满足需求;是否包含指标订购的指标。
1.9.2 数据一致性稽查
数据流动过程纵向实体间一致性稽查;横向实体间在相同口径下的相同指标的指标值一致性稽查;横纵十字交叉一致性稽查;复合指标层一致性稽查。
1.9.3 数据准确性稽查
时间序列数据准确性稽查;指标规律波动准确性稽查;周期变化状况数据准确性稽查;
复合指标排名准确性稽查。
1.10 数据标准服务
企业的数据标准化过程,需要在企业层面形成各类数据的标准化执行规范(数据标准),对各类数据的特征构成、约束检验规则、编码规则进行规范,并按照规范的管理流程进行数据标准的制定、发布、审核、修订。数据标准化执行规范是数据标准化的重中之重,作用于标准化工作的各个方面。
1.10.1 基础数据标准
1)基础数据标准产品概述
2018 年银保监会发布《银行业金融机构数据治理指引》,将数据治理提升到公司治理的高度。该指引对银行业金融机构加强数据治理,提高数据质量,充分发挥数据价值提出了要求并指引了方向。目前不少银行/公司内部缺乏统一的数据标准体系和标准管理体系,数据在不同的业务部门之间流转时,不一致的现象时有发生,非常不利于数据的统一管理和质量管理,也提升了数据利用的难度。
数据标准管理工具通过前端页面实现了数据标准的新增、修改和删除功能,并且提供历史版本控制,便于用户查询和维护数据标准体系,并且可通过接口向其他应用提供数据标准信息,便于数据标准在整个系统内部得到落实。
数据标准管理工具能够带来的好处有:
①一站式管理和修订数据标准,摆脱文档式管理
该工具提供了所有数据标准相关的信息的管理和维护,支持历史版本控制,实现了数据标准的系统化闭环管理,彻底摆脱传统的文档式管理方法。
②便于数据标准查询和使用
该工具提供自然语言模糊检索功能,便于用户检索数据标准及相关知识库信息,并且提供标准内容解释,便于用户理解数据标准内容
③实现数据标准系统化存储,便于与其他应用系统对接
该工具将数据标准相关信息存储在系统中,便于其他应用系统的对接和调用,有效帮助数据标准在各数据系统内的落地执行。
2)基础数据标准产品功能
①数据标准检索
用户可以通过两种方式实现对数据标准内容的检索;
通过对主题、一级分类、二级分类、三级分类、重要性分类的筛选检索;在搜索框内键入数据标准编号或中文名称,通过自然语言模糊匹配检索。
在数据标准详情中,系统会展示数据标准的各项信息,比如主题、一/二/三级分类、编号、中文名称、常用名、英文名称、引用数据项标准、数据类型、业务定义、参考标准、数据长度、主管部分等;
如果数据类型是“代码类”时,系统还会展示代码名称,并提供查询相关代码详情; 提供数据标准的修改和新增功能,同时数据标准的各版修改信息可以通过“更新记录”
查询。
②代码标准检索
用户可以在搜索框内键入代码中文名称,通过自然语言模糊匹配检索;
在代码标准详情中,系统会展示主题、代码编号、代码中文名称、代码值、代码名称、代码描述和编码规则等信息;
提供代码标准的修改和新增功能,同时代码标准的各版修改信息可以通过“更新记录”查询。
③数据标准知识库
用户可以在搜索框内键入相关标准术语,通过自然语言模糊匹配检索:知识库包含的信息有:
数据标准的术语和定义(对主题的定义和解释);
数据项分类架构定义(对一/二/三级分类的定义和解释);
数据标准定义属性说明(对数据标准各项内容的定义和解释)。
1.10.2 指标标准管理 1)指标标准管理产品概述
指标标准管理工具通过前端页面实现了指标标准的新增、修改和删除功能,并且提供历史版本控制,便于用户查询和维护指标标准体系。同时用户可通此工具快速地查看指标整体达成情况,掌握指标动态。
指标标准管理管理工具有以下特色:
①一站式管理和修订指标标准,摆脱文档式管理
该工具提供了所有指标标准相关的信息的管理和维护,支持历史版本控制,实现了指标标准的系统化闭环管理,彻底摆脱传统的文档式管理方法。
②展示列定制化话配置
该工具提供了能够满足大部分业务场景下的初始列,如指标分级、指标定义、计算逻辑等。如果用户有定制化的需求,可自行添加配置列,还可将配置列设置为筛选器,方便用户对指标标准的查看及检索。
2)指标标准管理产品功能
①用户可以通过两种方式实现对数据标准内容的检索:
通过对指标分级、指标主题、报送频次等分类内容的筛选检索;在搜索框内键入指标名称,通过自然语言模糊匹配检索。
②在数据标准详情中,系统会展示数据标准的各项信息,比如主题、一/二/三级分类、指标名称、指标定义、计算规则、报数频次、单位、数据类型、生效/失效日期等;
③用户可定制化配置所需展示内容,可以添加/删除配置列,调整列的展示顺序,设置特定列作为筛选器;
④提供数据标准的修改和新增功能,同时数据标准的各版修改信息可以通过“更新记录”查询;
⑤提供指标整体达成趋势图入口;
⑥提供维度检索页面,用户可以通过维度类别、报送对象进行检索,查看指标维度分级信息。
1.11 数据安全服务
数据安全管控是系统中必不可少的一环,监视对数据源的访问,自动执行合规控制,保护敏感数据,从而避免数据泄露以及防止滥用。可通过租户隔离、用户管理、权限管理、业务审计等方式保障平台数据安全,更严格的安全管控是对数据进行定级,按照不同的级别做到库、表、字段级的权限管控。要求投标人具备丰富安全服务经验,投标方需为数据安全管控服务成立本地化安全服务团队,能够很好的支持服务的开展。
1.11.1 数据安全管控功能
序号 | 服务参数 | 服务指标要求 |
1 | 服务接入 | 支持虚拟化环境,服务接入条件为 CPU≥16C,内存≥64G,硬盘≥ 8T,网卡≥2 个,支持资源条件的在线扩展,不影响服务的连续性 |
2 | 性能指标 | 支持数据库 SQL 峰值吞吐量不少于 8000 条/秒,在线会话不少于 3000 个,数据库实例数不少于 100 个。 |
3 | 数据库类型 | 支持国际主流数据库 Oracle、SQL Server、MySQL、DB2、PostgreSQL、 SAP HANA 等数据库,支持支持华为 Guass DB 100、Guass DB 200、达梦等国产数据库。 |
4 | 支持 Hive 等大数据平台组件。 | |
5 | 控制模式 | 无需数据库 DBA 权限,且无需在数据库上安装任何插件,即可对 数据库安全进行防护控制。 |
6 | 支持两种防护模式: 会话阻断:支持依照策略配置对存在风险的会话进行阻断; 拦截语句:支持依照策略配置对会话中的风险语句进行拦截,但不影响会话原有的连接状态。 | |
7 | 安全管控 | 支持按照受影响数据行数(阀值)进行精细管控,超出阀值的行为 进行阻断或拦截,防止大批量数据泄露。 |
8 | ▲支持拦截超过指定行数阀值的批量数据修改、删除操作;支持 拦截 no where 引起的整表更新、整表清空的误操作。(需提供功能截图) |
9 | 支持拦截指定对象的 ALTER TABLE、ALTER TABLESPACE 、DROP DATABASE、DROP TABLE、DROP TABLESPACE、DROP USER、TRUNCATE 等高危操作行为,支持数据库权限变更行为管控。 | |
10 | 支持通过客户端 IP、DB 用户、客户端工具、客户端 MAC、OS 用户、 主机名、时间等信息定义非法导出规则,防止非法导出备份。 | |
11 | 支持批量添加敏感对象表,与操作行为进行关联,防止敏感信息 泄露和非常规操作。 | |
12 | 支持 SQL 注入、XSS 攻击等外部行为防护。 | |
13 | 支持数据库字段级的“与”、“或”逻辑设置,可建立敏感数据 组进行专项安全防护。 | |
14 | ▲支持结果集内容作为规则判定的条件,结果集包含敏感数据, 则直接拦截或阻断。(需提供功能截图) | |
15 | 运维申请 | 支持运维人员提交运维申请,选择对应审批人,并根据操作时间 指定执行范围。 |
16 | 支持运维人员按实际操作的语句行为提交运维申请,包括访问来 源(IP、数据库用户、客户端工具),SQL 操作行为,操作的数据库表对象等条件。 | |
17 | 支持运维人员以完整 SQL 语句形式提交运维操作申请;在提交语 句申请时,可选择一次申请单条或多条语句。 | |
18 | 运维审批 | ▲支持多级审批账户对提交的运维申请动作进行审批,支持同时 审批后方可生效,或任一级审批即可生效。(需提供功能截图) |
19 | 敏感数据脱敏 | 支持数据遮蔽:将原数据中部分或全部内容,用“*”或“#”等字符进行替换,遮盖部分或全部原文; |
20 | 支持遮蔽算法自定义,包括遮蔽起始位置、遮蔽长度、替换字符 可自定义; | |
21 | 支持按字段、表与字段组合方式添加脱敏字段,表名、字段名支持正则表达式和设置字段别名; 支持按访问来源、时间等细粒度的规则设置脱敏策略,访问来源包括:来源 IP、数据库用户、客户端工具、Mac 地址、操作系统 用户、主机名,不同数据库类型等。 | |
22 | 支持对多个脱敏规则设置优先级和一键置顶,方便快速的应用到被保护数据库;支持脱敏规则复制功能,根据原有脱敏规则微调 快速生成新的脱敏规则; | |
23 | 支持通过申请人申请脱敏例外,审批通过后可看到原数据。 | |
24 | 审批机制 | 可设置普通用户(运维人员)、审批人、系统管理员、安全管理 员、审计管理员多种角色,对应不同操作权限。 |
25 | 根据运维账户身份不同,如申请人、审批人等角色,分配不同的数据库管理权限。 | |
26 | 运维人员提交运维申请并获取审批后,系统会发送给运维人员特 定的审批码,运维人员需凭借审批码登录,方可执行运维动作。 | |
27 | 运维身份认证 | 至少支持 UKEY、动态令牌、AD 域用户等三种身份认证方式;身份 认证后,通过与运维管理系统防护规则联动,实现数据库准入和数据库操作行为防控。 |
28 | 密码代填 | 通过运维管理系统上创建的运维用户与数据库用户及密码进行绑定,运维人员在不知道数据库真实密码的情况下,即可完成对数 据库的运维和管理。 |
29 | 运维行为检索 | 审计记录:对数据库的所有运维动作进行记录,包括:会话的终端信息(IP、MAC、Port、工具名、数据库用户名)、操作信息: 操作类型(DDL、DML、DCL 等)、操作时间、执行时长、操作成功 |
与失败、受影响行数、操作对象(表、函数、存储过程等名称)、 SQL 语句、运维人员等。 | ||
30 | 支持对运维工具自动产生的运维语句进行过滤检索。 | |
31 | 审批日志检索 | 支持关键字、审批状态、审批内容、申请时间检索条件进行审批 日志检索。 |
32 | 审批通知 | 运维人员提交申请后,系统会自动发送通知给审批员,审批员审 批某个申请后,系统会自动发送通知给申请人,通知方式支持邮件、短信。 |
33 | 实时运维监控 | 支持数据库访问风险、SQL、审批语句等实时动态的整体展示,以 及运维管理系统运行状态的展示。 |
34 | 风险分析 | 提供对运维人员执行语句进行风险和危害访问的分析,包括:高危操作分析和追踪、大规模数据泄露分析和追踪、批量数据篡改 分析和追踪、SQL 注入行为分析和追踪。 |
35 | 报表展示 | 支持运维申请历史报表、运维审批历史报表、运维执行情况报表; |
36 | 图表类型支持 | 支持丰富的图表类型,包括柱形图、饼状图、条形图,双轴折线 等展现方式; |
37 | 报告导出功能 | HTML、DOC、PDF 等格式的导出。 |
38 | 部署方式 | 支持网桥模式、代理模式、透明代理模式部署;安装部署不需要 提供 DBA 账号,在数据库上不需要安装任何软件。 |
39 | 高可用机制 | 支持 HA 双机主备自动切换,支持策略同步、会话同步机制,保障 主备间的一致性。 |
40 | 支持产品断电 Bypass 和在线 Bypass 容灾功能,可自动启动和关 闭网口间 Bypass 导通,保障系统异常环境下的网络畅通。 | |
41 | IP 别名管理 | 支持客户端 IP 别名设置,针对不同客户端 IP 自定义别名展现。 |
42 | 分组管理 | 支持 IP 地址、数据库用户、时间、对象、应用用户分组,并且分 组对象可以直接在规则中引用。 |
43 | 系统管理 | 支持三权分立,系统默认设定系统管理员、规则配置员、审计查 看员、操作日志查看员等角色;可以新建不同用户,分配不同数据库权限和不同的菜单管理权限。 |
44 | 可以新建不同下级安全管理员用户,分配不同数据库权限和不同 的菜单管理权限。 | |
45 | 系统支持 LDAP/AD 域对接,支持 AD 域用户关联运维系统用户,通 过 AD 域账户统一登录系统。 | |
46 | 具有自身安全审计功能,可以对审计系统的所有用户操作进行审 计记录。 | |
47 | 数据管理 | 日志备份与恢复管理,支持审计日志数据的备份与恢复,支持自 动备份,备份数据可以选择高性能或高压缩比,支持的备份服务器类型至少包含 FTP、SFTP、NFS 方式,备份记录可以查询。 |
48 | 支持 SYSLOG 方式进行数据外送。 |
1.11.2 智能数据脱敏
智能数据脱敏为广东省中小企业融资平台实现敏感数据智能发现、脱敏方式灵活配置、脱敏任务实时监控和脱敏数据可视化管理,全面并高效地进行敏感数据的一站式管理。
智能数据脱敏需要满足以下功能要求:
序号 | 服务参数 | 服务指标要求 |
1 | 服务接入 | 支持虚拟化环境,服务接入条件为 CPU≥4 核 4 线程,内存≥16G, 硬盘≥2T,支持资源条件的在线扩展,不影响服务的连续性。 |
2 | 脱敏性能 | 脱敏/数据迁移速度:20MB/秒 数据库实例数无限制 |
3 | 数据库类型 | 支持国际主流数据库包括:Oracle、DB2、SQL Server、MySQL、 PostgreSQL 等数据库。 |
4 | 脱敏方式 | 系统支持自定义、图形化操作的脱敏规则和脱敏方式,支持UNICODE 标准、中文等字符编码。支持数据库到数据库、数据库到文件、文件到文件、文件到数据库等多种脱敏方式。 |
5 | 敏感数据自动发现 | 系统支持敏感信息的自动发现能力,系统具有内置敏感数据特征库,能对身份证、通用证件号、银行卡号、电话号码(手机、座机)、中文姓名、中文地址、企业名称、日期、税号、email 地址、金额、统一社会信用代码、组织机构代码、工商注册号、证券号、海关编号、ip 地址、mac 地址、车牌号、车架号、军官证、港澳通行证、 回乡证敏感信息自动识别。 |
6 | 系统能读取数据库或 txt、csv 等文件内容,根据内容和内置敏感 数据特征规则发现敏感数据。 | |
7 | ▲系统支持一个单元格的数据按位拆分或按字符拆分成多种敏感 数据类型进行发现(需提供功能截图) | |
8 | 系统支持按照数据字典进行敏感数据发现的能力,凡是字段中数据 在数据字典内占有一定比例的,则该字段被发现为敏感字段。 | |
9 | 支持在系统前台界面配置敏感数据发现的组合策略;可设置出现的 敏感数据类组合,敏感数据的判断需支持组合条件判断,如一张表中同时出现多列个人信息字段才标注为敏感数据。 | |
10 | 支持以文件导入的方式,将客户预先定义好的敏感字段导入至系统 中。 | |
11 | 支持在系统前台界面设置自定义敏感类型的发现函数,函数可以采 用 Python,PHP,JavaScript 等一种或多种。 | |
12 | 脱敏方案 | 支持灵活的脱敏方案管理,脱敏方案与脱敏任务不绑定。对脱敏方 案进行调整、修改时不影响与之相关的脱敏任务,不需要删除与脱敏方案相关的字段发现以及脱敏任务。 |
13 | 数据子集管理 | 可以在脱敏流程配置中,调用定义好的子集规则,具有抽取多表间 关联的子集抽取功能。 |
14 | 脱敏任务管理 | 支持对脱敏任务进行停止、启动、重启,并且支持任务并发,充分 利用系统资源,提高脱敏效率。 |
15 | 脱敏任务可兼容执行过程中遇到的异常情况,支持跳过异常数据继 续执行任务,包括对异常数据的丢弃、填充、置空处理。 | |
16 | 脱敏对象 | ▲在执行脱敏任务时,除了要将数据脱敏至目标库,还需要将源库中约束和敏感表上其他对象一并迁移至目标库,包括序列、视图、 包、函数、存储过程、索引、约束、触发器等。(需提供功能截图) |
17 | 定时任务 | 系统支持定时、定期自动执行发现任务和脱敏任务的功能。支持按 照日期、时间对任务进行定时。 |
18 | 增量脱敏 | 系统支持基于时间类型字段或自增字段的数据增量脱敏功能。 |
19 | 数据对比 | 系统支持通过查询单表数据实现脱敏后数据对比功能。 |
20 | 异构脱敏 | 系统支持 Oracle 到 SQLServer、Oracle 到 MySQL 的异构脱敏。 |
21 | 文件脱敏 | 支持无中间数据库情况下脱敏 dmp 文件 |
22 | 支持对 Excel、CSV、DEL、TXT 文件脱敏。 | |
23 | 支持 XML 文件、HTML 文件脱敏。 | |
24 | 支持远程文件批量脱敏,可通过配置 FTP 目录获取远程文件,并能够自动的拉取远程文件、自动解析远程文件中数据格式识别敏感数据,自动按照预先配置好的脱敏算法进行脱敏,并将脱敏后的文件 自动发送至远程 FTP 目录。 | |
25 | 脱敏模板 | 支持定义文件脱敏模板,用户上传需要脱敏的文件后通过选择模板即可完成敏感数据确认、脱敏算法选择、脱敏方案选择等任务,便 于快捷的对文件进行脱敏。 |
26 | 同义替换 | 使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有 意义的姓名,住址脱敏后仍然为住址。 |
27 | 部分数据遮蔽 | 将原数据中部分或全部内容,用“*”或“#”等字符进行替换,遮 盖部分或全部原文。 |
28 | 黑白名单 | ▲系统可支持“脱敏白名单”和“脱敏黑名单”功能,可在页面以正则表达式方式进行条件判断,当字段中的数据匹配到条件时,则 该行中的指定字段不做脱敏处理。(需提供功能截图) |
29 | 数据关联 | 脱敏算法保持数据关联性,能够保持同一数据库中不同表字段之间 的数据关联性,也能保持不同数据库之间的表字段间的数据关联性。 |
30 | 字段表达式 | 脱敏字段能满足表内其它字段的运算关系,如表内脱敏后数值字段 1 和字段 2 自动求和置入字段 3。 |
31 | 分组字典 | 对含有分类字段的数据,可以根据分类内容按指定的分类对与分类数据关联的数据内容进行替换,保证数据替换范围在相关分类内。 例如:身份证号与籍贯的关联脱敏。 |
32 | 自定义函数 | 对有特定业务需求的敏感数据可通过自定义发现函数实现和自定 义脱敏函数实现。 |
33 | 支持在系统前台界面配置自定义函数设置脱敏算法,函数可以采用 Python,PHP,JavaScript 等一种或多种。 | |
34 | 脱敏算法 | 至少支持一种国密算法,可以对字段进行加密处理 |
35 | 支持对应同一种脱敏算法,通过配置不同的密钥,保证同一份数据 脱敏后可以产生不同的结果。 | |
36 | 三权分立 | 提供系统管理员、安全管理员和审计管理员来管理脱敏设备。 |
37 | 自身审计 | 系统针对脱敏产品操作人员的操作行为进行审计记录,可以由审计 管理员进行查询,具有自身安全审计功能。 |
38 | 脱敏数据安全 性 | 系统不允许真实生产数据落地,不能存储生产数据;并提供审计报 告,包括用户信息、脱敏配置信息、任务信息等。 |
39 | 用户权限管理 | 具备完善、统一的权限管理体系,可以针对不同用户、不同角色、不同业务系统实现数据行级的权限控制,完成用户建立、用户分配、用户身份验证等管理功能,满足系统用户所有资源信息具备最小颗粒度的可配置、可分配的能力,保证针对具体的使用用户进行分配, 每个用户仅能使用其分配的资源。 |
40 | 产品资质 | 提供国家版权中心颁发的软件著作权; |
41 | ★具备《计算机信息系统安全专用产品销售许可证》,检测依据:数据脱敏产品安全检测条件。具备计算机信息系统安全产品质量监 |
督检验中心颁发的合格检测报告(需提供相关证明文件) | ||
42 | ▲具有中国网络安全审查技术与认证中心(CCRC)颁发的 IT 产品 信息安全认证证书,符合《数据脱敏产品安全技术要求和测试评价方法》的产品标准和技术要求(需提供相关证明文件) |
1.11.3 智能日志监控
智能日志监控采用实时大数据流式处理技术框架,对大数据平台用户的操作日志进行实时获取和解析,提供实时日志监控预警服务。
智能日志监控需要满足以下功能要求:
序号 | 服务参数 | 服务指标要求 |
1 | 服务接入 | 支持虚拟化环境,服务接入条件为 CPU≥16C,内存≥64G,硬盘≥8T,支持资源条件的在线扩展,不影响服务的连续性 |
2 | 性能要求 | 支持纯数据库流量≥180Mbps,SQL 峰值吞吐量≥24000 条/秒,SQL 峰值入库量≥18000 条/秒,在线会话≥8000 个,数据库实例数≥100 个 |
3 | 部署方式 | 旁路部署模式下无须在被审计数据库系统上安装任何代理即可实现审 计(不需要提供 DBA 账号和任何数据库账户,不需要创建任何数据库账户)。 |
4 | 支持在目标数据库服务器主机上安装 agent 解决云环境、虚拟化环境内部流量无法镜像场景下数据库的审计(不需要提供 DBA 账号和任何数据库账户,不需要创建任何数据库账户),审计平台可以实时监控 agent CPU 使用率、内存使用率、传输包个数。(需提供服务平台功 能截图) | |
5 | agent 参数支持自定义,支持 IP(IPv4\IPv6)、CPU 占用率、内存占用 率、本地缓存大小、端口等灵活配置。 | |
6 | 支持审计平台 WEB 界面管理插件,支持插件的配置、唤醒、挂起、中 断、升级,审计平台支持远程安装、卸载、下载。 | |
7 | 协议支持 | 支持 Oracle、SQL Server、Db2、Informix、PostgreSQL、Sybase ASE、 Sybase IQ、MySQL、MongoDB、SAP HANA、MariaDB、Percona 等主流 数据库审。 |
8 | 支持 Hive、HBase、Sentry、Impala、HDFS、ES(Elasticsearch)、 GP(Greenplum)、Redis 等大数据平台的审计。支持 Teradata、Cache、人大金仓、达梦、神通、南大通用、华为 Guass DB 等数据库审计。 | |
9 | 支持 SSH 或者 KVM 登录 Oracle、MySQL、SQL Server 数据库服务器后, 直接执行的 SQL 操作的审计,不依赖于数据库自身审计功能。 | |
10 | 审计功能智能发现 | ▲支持跨语句、跨多包的绑定变量名及绑定变量值的审计;支持对超 长 SQL 操作语句审计,可以正常记录单条长度小于等于 2M 个字节的 SQL 语句内容。(需提供功能截图) |
11 | 支持访问来源信息:客户端 IP、端口、数据库名称、数据库用户、OS 用户、访问工具、主机名称、MAC 地址。 | |
12 | 支持应用身份信息:应用客户端 IP、端口、应用用户名、应用 URL 标识、应用 URL 模板、URL、URL 地址参数、URL 消息体参数;支持数据 库主机信息:数据库 IP、端口、数据库名、服务名(实例)。 |
13 | 支持 SQL 语句信息:SQL 标识、操作类型(DDL、DML、DCL 等)、影响行数、响应时间、语句捕获时间、执行结果(DB 应答码、应答错误信息)、受影响对象、SQL 语句、SQL 语句模板、SQL 参数、结果集;支 持数据库单向\双向审计。 | |
14 | 支持数据库告警功能,支持对根据 IP、账号、客户端工具名、时间等 定制规则进行告警。 | |
15 | 支持从数据库流量中自动识别数据库,从流量分析结果中自动判别包 含的数据库类型、版本、地址等信息,并且自动添加到审计范围,无需用户提供网段、数据库地址等信息。 | |
16 | 结果集审计 | 支持按照策略进行结果集审计,可以指定敏感表审计结果集。 |
17 | 支持通过返回行数和内容大小控制返回结果集大小,降低系统开销。 | |
18 | 支持基于结果集的关键字检索。 | |
19 | 应用关联 | 非时间戳的解析方式,采用应用端轻量级插件部署,在并发 1000 个连接的情况下,实现 100%准确关联;以精确方式审计到应用端相关信息,支持应用用户和源IP 的关联审计;支持 Weblogic、Tomcat、Websphere、 Jboss 等主流的应用服务器;支持对 F5 等负载均衡模式下虚拟 IP 的 识别,深入挖掘原始应用 IP。 |
20 | 安全审计 | 内置安全特征库规则,如 SQL 注入、缓冲区溢出、权限提升、数据泄露、拒绝服务、访问操作系统、改密码、Bypass FGAC、修改 FGAC、审计、游标注入、访问敏感组件、创建外部 JOB、恶意代码、非系统 用户执行命令等常规漏洞。 |
21 | 支持识别口令猜解攻击,以及在同一个会话里,相同 IP、数据库用户 的频次攻击告警。 | |
22 | 审计策略 | 可自定义审计策略。审计策略至少支持 20 个条件,规则各条件之间支 持与或非逻辑关系。 |
23 | 结果集审计支持全局开启,也支持按照具体策略进行结果集审计开启 的功能。 | |
24 | 告警数量需支持最大告警数量限制,超过告警阈值之后便不告警。 | |
25 | 审计查询 | 支持基于时间、IP 地址、数据库服务器 IP 地址、用户名、数据库操作命令、数据库表名,执行结果,应用用户、数据库服务(实例)名、报文关键字等多种丰富的查询检索条件;支持应用层关联审计查询和 关联分析。 |
26 | ▲支持不同审计账户,各自查看不同的数据库审计内容,要求:A 账户不能看到 B 账户的数据库审计记录,B 账户不能看到 A 账户的数据库审计记录,安全管理员可以看到所有的审计记录;(需提供功能截 图) | |
27 | 支持将常用的查询条件保存成固定查询模板,方便后续快速查询。 | |
28 | 支持对查询结果中可能存在的敏感数据进行掩码处理,防止敏感数据 泄露。 | |
29 | 支持对查询结果以 CSV 文件格式导出到本地。 | |
30 | 在同一套审计系统内可创建子账号,并对不同的子账号授予不同的数据库审计记录的查询检索权限,确保子账号之间彼此数据不可见,避 免数据交叉泄露。 | |
31 | 支持 SQL 语句自定义业务化语言翻译。 | |
32 | 统计报表 | 系统提供不少于 40 个报表模型,分别基于全库、数据库组和单库维度 进行展现。 |
33 | 支持合规性报表,如 PCI、等级保护、SOX 法案等专项报表展现。 | |
34 | 支持专项报表展现,针对风险、性能、访问源、账户等信息做专项报 表展现。 |
35 | 支持图表结合展现,支持柱形图、饼状图、条形图,双轴折线图等多种统计图展现形式,基于总体概况、性能、会话、语句、风险多层面 展现报表。 | |
36 | 支持按日、周、月等时间周期生成报表。 | |
37 | 支持报表数据后台定期预生成,保障报表数据展现速度。 | |
38 | 支持将报表按指定的时间推送至指定管理员的邮箱。 | |
39 | 报表支持以 Word、PDF、HTML 等格保存到本地。 | |
40 | 会话分析 | 支持会话级检索和详情展现:包括在线的并发会话、活跃会话、失败 登录会话等提供专项的分析界面。 |
41 | 支持失败登录会话查询和统计:包括客户 IP、数据库用户、操作系统 用户、工具或应用、数据库应答码、失败原因和失败次数等信息。 | |
42 | 访问源分析:可展现不同数据库节点的访问源统计、分析状态。 | |
43 | 对象统计 | 以操作类型为维度,统计表级别对象被访问次数,可生成行为轨迹图; 并可通过对象的访问次数,下钻追溯到该表对象下所有的访问语句详情,以及该表对象访问来源。 |
44 | 统计信息环 比 | 获取同一数据库不同时间段及不同数据库同一时间段的 SQL 语句量和 会话量的对比统计数据以及变化趋势。 |
45 | 行为建模 | 可基于单个数据库建立学习期,默认学习期内行为可信认,学习期结 束后,产生的数据标记为新型对象、新型语句模板。 |
46 | 数据管理 | 日志备份与恢复管理,支持审计日志数据的备份与恢复,支持自动备 份,备份数据可以选择高性能或高压缩比,支持的备份服务器类型至少包含 FTP、SFTP、NFS 方式,备份记录可以查询。 |
47 | 支持 KAFKA、SYSLOG 方式进行审计数据外送; KAFKA 外送审计数据内容包括:客户端 IP、客户端端口、客户端 MAC、 数据库用户名、数据库实例名等会话信息,SQL 语句参数、SQL 捕获时间、结果集、语句模板、SQL 语句等语句详细信息。 | |
48 | IP 别名管 理 | 支持客户端 IP 别名设置,针对不同客户端 IP 自定义别名展现。 |
49 | 分组管理 | 支持 IP 地址、数据库用户、时间、对象、应用用户分组,并且分组对 象可以直接在规则中引用。 |
50 | 运维管理 | 审计设备 WEB 界面提供自动诊断功能,可以自动收集实例级参数、策 略中心参数、操作系统参数、应用中间件参数。 |
51 | 告警管理 | 系统告警内容支持网卡异常、分区超限、异常关机、CPU 超限、内存 超限、会话超限、包数超限、SQL 数超限、agent 异常等。 |
52 | 风险告警内容支持触发规则风险内容,并支持根据风险等级高、中、 低进行告警通知。 | |
53 | 告警方式包括:邮件、短信、SYSLOG、SNMP、企业微信、审计系统前台界面;支持短信平台对接,发起告警操作。 | |
54 | 系统管理 | 支持三权分立,系统默认设定系统管理员、规则配置员、审计查看员、操作日志查看员等角色,并且可以新建不同用户,分配不同数据库权 限和不同的菜单管理权限。 |
55 | 系统支持 LDAP/AD 域对接,支持 AD 域用户关联审计系统用户,通过 AD 域账户统一登录审计系统。 | |
56 | 具有自身安全审计功能,可以对审计系统的所有用户操作进行审计记 录。 | |
57 | 产品资质 | ▲具备计算机信息系统安全产品质量监督检验中心颁发的安全审计产品(增强级)型式试验报告。 |
58 | 产品支持 IPv6,具有 IPv6 Ready Logo 认证。 |
59 | 具备公安部或其授权机构数据库安全审计类(增强级)检验报告。 |
1.12 数据价值评估
基于对数据资产特点的分析,引入层次分析法构建指标评价体系,采用专家打分法予以权重和得分的赋值,力求构建一个完整的数据价值评估模型,并实现评估结果的量化分析。
1.12.1 数据质量价值评估
数据质量是保证数据应用的基础,是数据资产价值得以实现的前提。随着企业拥有数据量的急剧扩大,数据质量问题变得日益突出,数据的质量,将严重影响企业数据资产的价值,是决定数据价值高低的重要因素。
数据质量评估的维度包括数据的完整性、正确性、一致性、重复性。数据质量评估能够对整体或其中部分数据的质量状况给出一个合理的评估,帮助数据用户了解数据的质量水平,进而对数据应用水平予以预测,评估企业数据资产的真实价值。
数据质量价值评估产品功能: 1)支持 4 种二级指标计算
a)完整性:描述数据是否存在缺失记录或缺失字段。评分方法:完整性=(数据集中所有满足条件的数据量/数据记录总数)* 100%;
b)正确性:描述数据是否与其对应的客观实体的特征相一致。评分方法:正确性=(数据集中所有正确的数据量/数据记录总数)* 100%;
C)一致性:描述同一实体的同一属性的值在不同数据集中是否一致。评分方法:一致性=(数据集中所有不一致的数据量/数据记录总数)* 100%;
D)重复性:描述数据是否存在重复记录。评分方法:重复性=(数据集中所有重复的数据量/数据记录总数)* 100%。
2)可配置权重,计算一级指标得分
a)可根据专家意见,或者可根据调用次数、调用频率等维度设置权重; b)可通过加权计算公式自动计算出数据的质量价值得分。
1.12.2 数据应用价值评估
数据的价值只有在应用时才得以体现,应用价值是数据资产的核心价值。数据应用价值评估的维度包括场景经济性、稀缺性、时效性、多维性。数据的应用价值在不同的行业、不同的应用场景下价值的大小不同。在市场环境下,数据的垄断也是决定数据价值高低的重要因素。在不同应用场景下,对数据的时效性要求也不同,有些场景需要实时性数据,而有些场景需要较长时间周期的历史性数据。交叉性的多维数据带来更深刻的洞察,因而价值更高。
数据应用价值评估产品功能: 1)支持 4 种二级指标计算
a)稀缺性:描述数据的供给数量及供给方数量的多寡。评分方法:稀缺性=供给方数量或数据供给丰富程度,与最大供给方数量或数据供给丰富程度相比较。利用行业内的大数据专家经验,采用专家打分法。
b)时效性:描述数据的时间特性对应用的满足程度。评分方法:时效性=该数据集的有效时间与应用所需要的期望有效时间相对比,利用行业内的大数据专家经验,采用专家打分法。
C)多维性:描述数据集的维度多寡程度。评分方法:多维性=该数据集的维度数量与应用所需要的期望数据维度相对比,利用行业内的大数据专家经验,采用专家打分法。
d)场景经济性:描述在具体场景下数据集的经济价值。评分方法:场景经济性=该数据集在某场景下的经济价值与所有场景中的最大经济价值相比较,利用行业内的大数据专家经验,采用专家打分法。
2)可配置权重,计算一级指标得分
a)可根据专家意见,或者可根据加工周期、资源占用等维度设置权重; b)可通过加权计算公式自动计算出数据的应用价值得分。
1.13 生命周期管理服务
数据的价值随着时间的推移而演变,通过从初始获取到最终可视化的整个数据生命周期管理,来了解每项服务的特性和功能,以便明智地为工作负载选择最合适的服务。数据生命周期包含:提取、存储、处理和分析、探索和可视化四个步骤。
1.13.1 数据提取
提取原始数据,可以根据数据的多少、来源和延时情况采用多种方法来收集。
1.13.2 提取应用数据
应用和服务会生成大量数据,包括应用事件日志、点击流数据、社交网络互动和电子商务交易等数据。由应用调用 API 将数据发送到存储空间。
1)将数据写入文件;
2)将数据写入数据库;
3)将数据作为消息进行流式传输。
1.13.3 提取流式数据
数据由连续的小型异步消息流组成。通常,从地理位置分散的设备收集数据,用于触发事件触发器、执行复杂的会话分析以及作为机器学习任务的输入。
以下是两种流式数据的用法: 1)遥测数据。
2)用户事件和分析;
1.13.4 提取批量数据
批量数据由大型数据集组成,可以存储在文件之中,或存储在关系型数据库中。源数据可以位于本地或者云平台上。
提取批量数据可用于: 1)迁移到云端;
2)备份数据;
3)导入旧数据。
1.13.5 数据存储
获得数据后,需要以持久且易于访问的格式进行存储。数据的格式和大小各不相同,其结构完全取决于生成它的来源和后续的下游使用场景。对于数据和分析工作,提取的数据可以以各种格式存储在各种位置。
为结构化和非结构化数据提供持久可用的对象存储空间。该数据可能是日志文件、数据库备份和导出文件、图片和其它二进制文件。这些文件将按项目组织到各个存储分区中。这些存储分区可以支持访问权限管理。
以下是存储数据的使用场景:数据备份和灾难恢复
1)内容分发;
2)存储 ETL 数据;
3)存储 MapReduce 作业的数据; 4)存储查询数据;
5)机器学习种子设定;
6)归档冷数据。
1.13.6 数据处理和分析
在此阶段,数据从原始格式转换为实用的信息。为了从数据中获取业务价值和数据洞见,需对其尽进行转换和分析。既可以直接分析数据,也可以作为下游分析准备数据的处理框架。
1.13.6.1 处理大规模数据
大规模数据通常涉及从源系统读取数据,然后对数据进行清理、标准化和处理,并存储在分析系统中。很多情况下,数据太大而无法放在单个机器上,要使用分布式集群提供协助。
可用于: 1)ETL;
2)日志处理。
1.13.6.2 分析和查询大数据
处理后的数据存储在允许进行临时查询和探索的系统中,并且以能够轻松访问和查询的格式保存。
可用于: 1)用户分析;
2)商业情报。
1.13.6.3 通过机器学习理解数据
根据分析结果,数据用于训练和测试机器学习模型。机器学习已成为数据生命周期中分析阶段的关键组成部分。它可用于扩充处理结果、为数据收集优化提供建议,以及预测数据集中的结果。
可用于: 1)产品建议;
2)预测;
3)自动化助理;
4)情感分析。
1.13.7 数据探索和可视化
最后阶段,将分析结果转换为易于从中获得数据洞见并进行分享的格式。
数据生命周期的最后一步,深入的数据探索和可视化,以更好地理解处理和分析的结果。在探索过程中获得的数据洞见可用于提高数据提取的速度或数量、使用不同的存储介质来加速分析,以及增强处理流水线。
1.13.7.1 探索数据科学的成果
数据科学是从原始数据资源中获取价值的过程。使用到统计方法(聚簇、贝叶斯、最大似然回归),以及机器学习方法(决策树和神经网络)
1)交互式数据洞见:基于网页的交互式工具,可用于探索、分析和可视化数据。基于 Jupyter 笔记本构建。
2)数据科学生态系统:使用高性能计算引擎。基于R 语言。
1.13.7.2 可视化商业情报结果
基于报表工具的分析阶段,生成复杂的数据可视化、信息中心和报告以向更广泛的受众群体说明数据处理结果非常有用。
2. 智能监管专题
智能监管模块以数据为驱动,无论是监管体系中的监管机构,监管对象,还是监管规则,监管信息以及监管结果均以数据作为最直接的呈现方式,同时由于监管对象与监管信息的多样性和复杂性,智能管模块对数据治理有其特殊的需求和要求。
2.1 第三方金融机构数据采购
2.1.1 金融机构网络舆情数据接入
广东省地方金融机构发展迅速,金融机构类型多,数量规模大。包括小贷机构 400+家,典当行 538 家,区域性股权交易市场 1 家,融资担保公司约 200 家,融资租赁公司约 6000
家,商业保理公司约 2000 家,地方资产管理公司 2 家,分布在广东省 21 个地市(不含深圳市地方金融机构)。根据金融局现有监管人员编制,要做到全面现场监管十分困难。网络舆情作为了解金融机构业务经营情况的重要信息来源,将其纳入智能监管系统,作为金融机构风险预警的其中一个信息维度,对提前监测预警、识别发现、处置金融机构风险有着重要价值和必要性。
综合考虑智能监管平台监管业务需求和金融机构规模,确定数据接入查询方案。通过调研对比现有网络舆情数据类产品/服务的数据维度、数据质量、数据更新频次和接入查询费用。
预计 7500 家金融机构数量(暂不包括投资公司、农民专业合作社、社会众筹机构和地方各类交易场所)需要查询外部第三方网络舆情数据。
2.1.2 金融机构司法涉诉数据接入
法院司法诉讼信息作为衡量金融机构经营合规和法律风险的重要信息,对金融机构的监管和风险预警十分必要。由于目前广东省政数局无法提供金融机构司法诉讼数据查询接口。通过调研对比市面上现有的司法诉讼信息产品/服务的数据来源、数据质量、数据及时性、数据输出方式和数据查询接入费用。
预计 7500 家金融机构数量(暂不包括投资公司、农民专业合作社、社会众筹机构和地方各类交易场所)需要查询外部第三方金融机构司法涉诉数据。
2.1.3 金融机构关联图谱数据接入
关联图谱信息作为衡量金融机构投融资关联关系风险的重要信息,对金融机构是否出现自融、自担等监管和风险预警十分必要。因此前期以第三方公司数据采购为主,对机构投资股东关联、对外投资关联、高管关联、法定代表人对外投资及任职关系进行图谱关联使用,旨在助力省地方金融监管局等监管机构实时动态掌握管辖范围内机构的关联状况风险,可事先防范并识别。
预计 7500 家金融机构数量(暂不包括投资公司、农民专业合作社、社会众筹机构和地方各类交易场所)需要查询外部第三方金融机构企业关联图谱数据。
2.2 智能监管专题采集服务
智能监管主要为广东省地方金融局监管的“7+4”类地方金融机构监管提供智能有效解决方案。为便于金融监管部门更为全面准确地掌握地方金融机构风险,智能监管系统对接了省政务数据、第三方外部数据、广东省政务服务网行政业务申请审批数据、地方金融机构上报数据、现有监管系统历史数据等多个数据源,采集接入地方金融机构工商、企业关联图谱、企业税费、司法诉讼、行政处罚、网络舆情、举报投诉、行政业务备案审批、金融机构上报的基本信息、财务和业务数据等 30 多个数据维度,多达 200 多个数据项,采集方式包括结构化采集和非结构化数据采集。
2.2.1 结构化数据采集
智能监管的结构化数据采集是指围绕监管要求而针对监管机构和监管对象进行的如静态信息,动态信息以及其它相关信息的采集,这些信息的共同点是采用结构化的组织方式,信息本身拥有相对固定的格式,含义及内容。
智能监管需采集的结构化信息主要包括以下几个方面:
1. 与广东省政务服务网进行数据对接,将地方金融机构行政业务备案审批数据同步到智能监管系统,采集数据包括:
(1) 小额贷款机构设立申请审批信息;
(2) 小额贷款机构信息变更申请审批信息;
(3) 小额贷款机构设立分支机构申请审批信息;
(4) 小额贷款机构融资备案申请审批信息;
(5) 融资担保公司减少注册资本金申请审批信息;
(6) 融资担保公司变更持有 5%以上股权的股东备案信息等;
2. 与广东省金融监管局现使用的小额贷款机构非现场监管系统对接,将金融机构已报送历史业务数据同步到智能监管系统,包括:
(1)小额贷款机构非现场监管系统同步接入数据包括但不限于:
(2)小额贷款机构基本信息表 (3)小额贷款机构月度统计表 (4)小额贷款机构业务结构表
(5)小额贷款机构银行融资信息表
(6)小额贷款机构小额贷款业务信息等;
这些信息将通过数据接口的方式接入监管系统中,由于现有监管系统彼此间的接口协议,接口性能,数据结构,数据定义等方面差异明显,因此智能监管模块在接入这些数据前需要大量的沟通协调工作,接入后仍需要大量的工作,实时或批量的获取,整理,清洗,合
并这些数据,最终生成监管模块统一可用的数据样式。
根据小额贷款机构非现场监管系统的使用现状和机构报数频次,智能监管系统上线后,我们将对其历史存量数据采用一次性同步接入,新旧系统过渡运行期间,根据小额贷款机构报送数据频次,采用 T+1 方式进行同步。
3. 地方金融机构上报数据
广东省内需要进行数据报送的地方金融机构数量约 10000 家,包括小额贷款公司、典当企业、融资担保公司、融资租赁公司、商业保理公司、地方各类交易场所和地方资产管理公司等,由于报数金融机构间信息化水平不一,不同金融机构类型报数类型结构差异较大,且部分金融机构类型要求报送业务明细数据,数据规模庞大,业务复杂度高。因此该部分数据采集需要投入大量人力进行数据接口、页面开发联调,具体采集数据包括但不限于:
(1)地方金融机构基本情况报表 (2)资产负债表
(3)利润表
(4)融资信息表
(5)业务经营情况统计报表 (6)业务信息表等
报送数据的多样性和复杂性是智能监管模块数据治理的难点,各家金融机构上报数据的时效性,准确性都难以保证,因此智能监管模块本身将提供强大的通知,获取,检验,反馈等功能来支撑上万家金融机构的报送需求,并同时保证系统的灵活性,可配性以满足针对快速变化的金融市场及金融业务的监管需要。根据地方金融机构上报数据内容的更新频次和时效性要求,地方金融机构上报业务数据的采集时效为单次、按月、按季和按年采集。
2.2.2 非结构化数据采集
智能监管主模块中提供了针对监管对象的舆情分析能力,此功能通过分析获取于第三方渠道的大量非结构化的舆情信息,输出对应监管对象的舆情信息,舆情标签以及基于舆情的风险判断,帮助监管方从舆情入手,快速准确的发现问题,解决问题,将可能监管问题防范于未然。
同时作为智能监管模块中一个重要子模块的投诉模块,其主要作用为金融机构与消费者发生纠纷时,消费者声索其正当利益的诉求入口。由于投诉人以及投诉内容的不可预知性,投诉模块的入口信息通常为非结构化数据。
因此智能监管的非结构化数据治理主要包含以下两部分数据:
1. 地方金融机构舆情信息
由于舆情信息往往来自于微博,微信,社区,论坛等应用用户的评价性发言,其语言
及文字组织方式更偏向于自然语言,其内容也往往离散化,片段化,无明显的上下文和和准确的语法结构,因此舆情信息的内容通常不具备必要的结构性,其关键信息往往散落于大量无效或杂乱的无关信息中。智能监管模块采集这些非结构的文字信息后,需要先进行筛选,去除大量无效和无关内容,然后通过相应的 NLP 模型判断,识别必要的关键信息,并最终组织成程序需要的结构化信息。
2. 金融机构投诉举报信件文本识别信息。
投诉举报信件的文本信息是指用户通过图片上传进行投诉或监管机构通过图片上传进行投诉入库时上传的图片中的投诉信件的信息。这些信息往往是非结构化的,其关键投诉信息散落于信件内容的各个地方,且描述方式多样,如投诉人,投诉地址,投诉平台等,应用程序无法直接使用这些信息。因此需要通过图片文字识别程序先将图片转为文字,后通过 NLP 模型将非结构化的文字信息,提取,组织并最终生成必要的结构化信息。
2.3 智能监管专题分析服务
在采集数据的基础上,为了挖掘出数据的内含价值及监管价值,并最终通过数据帮助到监管方更好更方便的发现问题,修正问题,更有效的监管市场行为,需要对智能监管模块外部接入数据和内部产生数据进行更深入的数据分析和加工计算,以满足数据建模和业务应用需求,具体包括以下几个方面数据计算:
1. 7+4 类金融机构企业关联图谱
通过工商信息,投资股东信息、高管信息,业务信息及可能的业务关联人员信息等构建 7+4 类地方金融机构企业关联图谱,通过分析关联关系的分布密度以及异常关联,帮助监管机构快速发现,定位,甄别以及追溯可能的潜在监管问题,为有可能执行的监管行为提供可靠的数据支持。
2. 地方金融机构监管评级模型
通过地方金融机构工商、企业税费、司法诉讼,金融机构上报的财务、机构经营和业务数据,对小额贷款公司/商业保理公司从资本充足、资产质量、公司治理、盈利状况、流动性五类风险指标及服务实体经济、社会责任两类附加指标七个维度进行综合评级,便于监管部门更好进行分类监管。
3. 地方金融机构风险预警模型
根据 7+4 类各金融机构风险特征,利用地方金融机构工商、企业税费、司法诉讼、行政处罚、监管合规信息、网络舆情、举报投诉,金融机构上报的财务、机构经营和业务数据,构建各类型风险预警模型,从地方金融机构业务违规、经营异常、司法涉诉、网络舆情、举报投诉等方面对金融机构风险进行预警提示,便于监管部门及早发现并处置金融风险。
4. 金融机构行业数据分析建模;
金融机构的业务类型不同,其行业指标也不同,基于金融机构的上报数据
以及智能监管系统采集到的其它行业相关数据,进行不同金融行业的分析建模,可分析并发现不同金融行业的发展态势及走向,以便监管机构重点关注发展趋势异常的金融行业,并及时采取相关手段确保各金融细分行业的健康发展。
5. 7+4 类地方金融机构整体概况分析
从地方金融机构的基本情况、业务经营情况、行业风险等维度,对广东省内 7+4 类地
方金融机构整体发展情况和风险状况进行分析,为金融监管部门对广东省内 7+4 类地方金融机构发展现状和监管薄弱环节提供宏观视角和数据支持,更有针对性的出台相关指导政策和监管规则,促进广东省内地方金融机构健康稳定发展。
6. 智能监管系统数据图表可视化等;
通过智能监管模块自有的智能图标展示功能将监管信息以动态的方式呈现出来,并允许监管方通过自然语言问答的方式直接查询并获取需要的分析结果,此数据展示方式需要大量的数据运算和分析。
序号 | 服务参数 | 服务指标要求 |
1 | 监管评级模型咨询 | ▲能够针对地方金融机构监管评级模型的七个维度给出初始评级体系,并对评级模型的内容进行解读与分析。最终根据金融局自身需求,形成自定义版本的监管 评级模型版本(提供功能截图)。 |
2 | 监控指标配置 | ▲了解 7+4 类金融机构业态特征,能够给出行业及机构检测的核心指标项,围绕相关指标给出可视化展现方案(提 供功能截图)。 |
3 | ▲熟识 7+4 类金融机构业态特征,能够对监管指标的核心 内容进行异动监测与预警(提供功能截图)。 |
智能监管模块有大量自然语言处理需求,自然语言处理需要用到大量的机器学习,主要包含:
1) 智能监管模块中的网络舆情分析
智能监管会接入第三方舆情信息作为监管信息的有力补充。通过对舆情信息的建模与分析,提前发现市场风险走向以及被监管金融机构的潜在问题,如负债过多,逾期不还,暴雷等,以便监管机构在问题发生前提前介入并消除问题。
2)举报信件文本数据处理
智能监管的投诉子模块中的投诉信件扫描,其数据为非结构化的自然语言,无法直接用于数据处理,因此需要通过针对金融及监管场景专门训练的自然语言识别分析模型识别并挑选出投诉内容中的关键信息,如投诉人,电话,地址,以及一些潜在的信息如紧急程度,投诉人情绪等。
3) 自然语言查询及动态图表生成
智能监管的投诉子模块中的投诉信息分析及展示模块支持自然语言查询和基于该查询的图表动态生成功能。该功能通过对现有数据内容及维度的分析和建模,采用机器学习方式
的拆分并理解用户的自然语言输入,并将其映射于相应的数据分析,查询和展示操作,以支持用户对相关数据和图表的动态查询,并在页面中动态生成和展示相关数据,而无需在系统页面中提前定义。
2.4 智能监管专题工时及费用估算
智能监管系统与省政务数据、外部第三方数据、广东省政务服务网行政业务备案审批数据、7+4 类金融机构报送数据、现有监管系统历史数据等多个数据源对接,采集数据包括:地方金融机构工商、企业关联图谱、企业税费、司法诉讼、行政处罚、网络舆情、举报投诉、行政业务备案审批、监管合规信息、金融机构上报的基本信息、财务和业务数据等 30 多个
数据维度,多达 200 多个数据项。其中报送数据的地方金融机构数量预计 3000 家,不同金融机构类型报送数据类型结构均存在较大差异,需要投入大量人力进行数据接口、页面开发联调。为满足智能监管业务应用需求,系统需要对采集的数据进行加工处理和应用分析,包括 7+4 类金融机构行业分析、机构风险预警建模、小贷机构监管评级模型、企业关联图谱、
网络舆情分析等近 20 个业务场景;同时智能监管模块也存在大量的业务数据计算需求,包括:7+4 类金融机构行业分析基本情况、机构运营情况、融资情况等数据汇总计算,7+4 类金融机构企业关联图谱图关系计算,7+4 类金融机构上报数据按各维度、各指标计算汇总,地方金融机构数据报表统计分析,小贷/商业保理公司监管评级动态计算更新,7+4 类地方金融机构风险预警规则动态判断,以及非法集资资金交易关联关系图计算等,涉及数据表格 100 多张。机构完全接入后数据计算规模在 10~20TB 左右,业务关联关系复杂,部分计算为实时计算,时效性要求在 10s 以内,部分,对系统计算架构的数据处理能力有一定要求。综上评估,智能监管模块数据治理部分人员工作量为:66.56 人月
3.项目验收
采购人对服务的数量和数据的质量进行验收,项目验收的具体组织工作由项目采购人承担。本项目的验收应符合广东省信息化项目相关验收管理办法的要求,同时应符合下列标准:一、阶段性服务确认
(1)中标人应在合同签订后 12 个月内,完成合同和招标文件中列举的 70%技术服务和
/或可交付物,并向采购人提出阶段性服务确认验收申请,采购人在收到中标人提出的阶段性服务确认验收申请后 15 个工作日内组织阶段性服务确认验收。
(2)服务期间,中标人应按照合同、招标文件的要求和投标文件的服务承诺提供稳定、可靠、优质的服务,定期提交《项目进度报告》。
二、最终验收
(1)中标人应在约定服务期届满前,完成合同和招标文件中列举的全部技术服务和/或可交付物,已明确的技术服务和/或可交付物具体详见交付清单,未明确的技术服务和/
或可交付物经调研确认受外部因素制约确实无法开展的可不开展;并向采购人提出最终验收申请,采购人在收到中标人提出的验收申请后 15 个工作日内组织最终验收。
(2)服务期间,中标人应按照合同、招标文件的要求和投标文件的服务承诺提供稳定、可靠、优质的服务。服务期满后,提供过程服务的完整相关服务报告,包含《服务总结报告》,完成项目的验收工作。
(3)本次项目在进行项目交付时,针对软件开发的产品交付需要进行功能点的验收,以验收功能点的符合度作为验收标准,在开发的过程中,对不满足的某一些条款,按照最终用户的需求,进行整改,保证满足所有的功能点,发起最终验收工作。
三、验收标准
根据《财库[2016]205 号:财政部关于进一步加强政府采购需求和履约验收管理的指导意见》、《广东省人民政府办公厅关于印发广东省省级政务信息化项目管理办法的通知粤府办〔2020〕9 号》、《广东省政务数据资源共享管理办法(试行)粤府办〔2018〕50 号》、
【广东省政务服务数据管理局关于印发《广东省省级政务信息化项目验收前符合性审查细则》的通知(粤政数〔2020〕13 号)】的相关内容,制定项目验收标准。
1、采购文件与立项批复、审批通过的立项方案一致性,服务方案如需变更,提供变更说明、变更审批记录、变更备案函。
2、审查数据资产和共享情况。
1)有条件共享和不予共享时须提供法律法规依据和政策理由;
2)有条件共享的数据应明确具体共享条件,要求列明符合具体特定条件时可提供。
3)已编目、挂接数据的,应提供相关数据编目挂接页面截图。提供相关数据资源目录清单、数据资源共享目录清单。
3、可共享系统接口情况。
1)明确系统接口目录清单中的系统接口是否对外共享;
2)不共享时须提供不对外共享的法律法规及政策理由,提供相关系统接口清单。
4、提供项目安全管理的书面情况评估说明。
5、检查本系统相关的标准规范清单,是否符合数字政府各类标准要求。
6、项目开展验收、检验完成服务指标时,需提供服务完成佐证材料包括但不限于如下:
编号 | 所属专题 | 子项 | 细项 | 技术服务指标 | 服务完成佐证材料 |
1 | 融资风控专题 | 数据治理规划服务 | 需求调研 | 1)至少 80 家金融机构、至少 100 家企业主和全省 21 个地市、人民银行、广东银监等政府监管方等各类参与方的具体需求,进行 | 融资风控数据治理调研(规划)报告 |
数据现状调研 | |||||
业务规则整理 |
数据接入方式调研 | 需求调研分析。2)梳理各项业务的规则。3)涉及到的广东省政务大数据中心的数据、外部供应商数据,需提供数据接入方式的调研服务,包括数据接入方 式、授权要求,数据使用要求, 相关申请流程及数据价格等。4)设计数据接入协议,与包括税 局、社保局、南方电网等各政府数据源部门及外部数据供应商等编制数据接入协议。5)根据税局、社保局、南方电网等各政府数据源部门及外部数据供应商等对数据共享、使用的具体要求设计数据授权体系。6)通过整理调研前后对比调研过程记 录。 | ||||
数据接入协议制 定 | |||||
授权体系调研 | |||||
2 | 数据接入服务 | 外部数据采购 | 通过测试数据或少量样本数据验证调用外部数据(非政务数据)采购功能的第三方外部数据的持续供给数据的能力实现过 程。 | 调用第三方外部数据的持续供给功能报告 | |
3 | 数据源适配 | 1)在数据访问层抽象出数据(够适配各种数据源:数据库表、API数据接口、数据文件类型)读、写接口。2)通过前端页面配置的图形化界面帮助用户监控接 口(外部数据的接口)的调用和异常情况。3)数据采集服务符合的服务指标(见用户需求书章节 1.3.6.采集监控系统)。4)数据接口联调测试,完成数据接入服务指标(见用户需求书章节 1.2.4.数据接口联调测试 )。5)智能监控展示的信息有:接口的最新状态(正常、超市、报错等)、接口近一段时期的调用量、命中量的趋势折线图、接口的评分图 (响应时间、报错率、命中率等)。系统设置预警阀值,在接口调用量、并发量逼近阀值时接线板自动通知。6)日志管理可以查询接线板的操作日至和接口的请求流水日志。 | 数据接入实施报告 | ||
数据接线板接入 | |||||
数据表、文件、接口接入 | |||||
数据接口联调测试 | |||||
数据源 | |||||
采集功能实现 | |||||
采集监控系统 | |||||
4 | 主数据管理服务 | 确定主数据对象 范围 | 明确了主数据对象,以及其应用的业务范围和系统范围,建立符合平台需求的主数据的标准规 范(主数据对象的数据字典、数 | 主数据标准规范说明书 | |
修订数据标准规范 |
确定主数据维护流程 | 据分类、数据编码规则、数据描述规则)、主数据维护流程(主数据新建流程、主数据修改流程、主数据冻结/解冻流程、主数据归档流程),和制定合理的数据清洗规则和模型。 | ||||
5 | 历史主数据清洗 | ||||
主数据应用跟踪和分析 | 1)通过主数据申请、主数据监控和主数据清洗的全生命周期 闭环完成主数据应用跟踪和分 析,建立企业级的客户统一视 图,完成主数据整合。2)从不同的维度分析客户的需求,用数据发现潜在价值,提高数据的商业价值建立数据图谱,可视化观察主数据的变化趋势。3)做好主数据的网络安全、系统安全、数据安全等保障平台及数据安 全,符合安全管理服务指标(见用户需求书章节 1.4.9.主数据 安全管理)。 | 主数据管理工具操作报告 | |||
主数据整合 | |||||
数据图谱建立 | |||||
数据可视化 | |||||
主数据安全管理 | |||||
6 | 元数据管理服务 | 自动采集 | 1)自动采集及更新数据治理的大数据平台内所有元数据,编制元数据采集模板,完成缺失元数据的批量导入。2)支持库检索、表检索和字段检索,通过数据地图对业务线展示所有库的分布,可视化图形的方式展现表和字段的上下游血缘关系。3) 提供数据字典的上传、模板下载及预览的功能。4)用户的权限等级:查阅权限、编辑权限、角色权限,符合权限规则服务指标 (见用户需求书章节 1.5.4.权 限管理)。 | 元数据管理实施操作报告 | |
元数据管理一站式管理 | |||||
数据字典上传 | |||||
权限管理 | |||||
7 | 数据清洗加工服务 | 清洗规则 | 1)对数据缺失值清洗,可确定缺失值范围,去除不需要的字 段,填充缺失的内容,重新取数,格式内容清洗、逻辑错误清洗以及敏感数据清洗。数据清洗完成后,通过查看详情,查看整个任务的清洗状况。2)对数据清洗进行验证,生成验证结果报告,根据需求,如与报表数据对比、与原始数据对比、数据加工交叉检查、业务流程模拟验证以及垃圾数据检查。保证获取数据的整体质量,针对获取的数据进行相 应的清洗与转换。 | 数据清洗加工服务实施报告 | |
清洗任务调度 | |||||
清洗数据映射 | |||||
数据清洗验证 | |||||
缺失值清洗 | |||||
格式内容清洗 | |||||
逻辑错误清洗 | |||||
数据质量 | 变动异常扫描 | 1)搭建数据质量监控平台,监 | 数据标准质量 |
8 | 监控服务 | 标准质量监控 | 控预警分析数据变动、数据指标、数据质量等,通过界面配置的方式对表单的数据量大小、记录数、字段饱和度等多方面,通过手动、定时等方式生成标准质量报告,及时定位问题原因,解决数据问题,提升数据质量。2)业务监测预警包括业务场景、 KPI 等),每日更新预警符合服务指标( 见用户需求书章节 1.7.3.业务监测预警)。 | 实施报告 | |
业务监测预警 | |||||
9 | 数据标准服务 | 基础数据标准 | 1)形成各类数据的标准化执行规范(数据标准),对各类数据的特征构成、约束检验规则、编码规则进行规范,并照规范的管理流程进行数据标准的制定、发布、审核、修订。2)数据标准管理工具通过前端页面实现数据标准的新增、修改和删除功 能,并且提供历史版本控制。 | 数据标准服务实施报告 | |
指标标准管理 | |||||
10 | 数据分析应用服务 | 一站式数据分析平台 | 1)通过使用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的方式发现数据价值,搭建一站式数据分析平台实现超大数据量分析和自助式分析。2)AI赋能平台产品可视化计算图将模型训练的全流程,用户通过简 单的拖拉拽进行建模。 | 数据分析应用工具操作报告 | |
赋能平台 | |||||
11 | 数据稽查服务 | 完整性稽查 | 对部门、团队、个人进行排名监督,推广优质数据资产,并对异常数据资产监督,给出改进建 议。 | 数据稽查功能操作报告 | |
一致性稽查 | |||||
准确性稽查 | |||||
12 | 数据价值评估 | 数据质量价值评估 | 对数据资产特点的分析,引入层次分析法构建指标评价体系,对数据应用水平予以预测,评估企业数据资产的真实价值,应用价值、质量价值评估可配置权重,加权计算公司自动计算出数据 的质量价值得分,并实现评估结 果的量化分析。 | 数据价值评估报告 | |
数据应用价值评估 | |||||
13 | 数 据 安 全服务 | 数据安全管控 | 通过租户隔离、用户管理、权限管理、业务审计等方式保障平台数据安全,符合服务指标(见用户需求书章节 1.11.1 数据安全管控服务功能、1.11.2 智能数据脱敏、1.11.3. 智能日志监 控) | 数据安全服务实施报告 | |
智能数据脱敏 | |||||
智能日志监控 | |||||
14 | 生命周期 | 数据提取 | 数据管理包括但不限于数据采 | 融资风控专 |
管理服务 | 数据存储 | 集、安全与保护、灾备和归档、访问和查找、迁移与回收等贯彻数据价值的整个生命周期。 | 题的数据管理 ( 生命周期)报告 | ||
数据处理和分析 | |||||
数据探索和可视 化 | |||||
15 | 智能监管专题 | 第三方金融机构数据采购 | 地方金融机构网络舆情数据接入 | 1)调研对比现有网络舆情数据类产品/服务的数据维度、数据质量、数据更新频次和接入查询,预计 7500 家金融机构数量 (暂不包括投资公司、农民专业合作社、社会众筹机构和地方各类交易场所),提供查询外部第三方网络舆情数据、司法涉诉数据、外部第三方金融机构企业关联图谱数据。助力省地方金融监管局等监管机构实时动态掌握管辖范围内机构的关联状况风 险,可事先防范并识别。 | 智能监管系统数据采集实施报告 |
地方金融机构司法涉诉数据接入 | |||||
地方金融机构关联图谱数据接入 | |||||
16 | 智能监管专题采集服务 | 结构化数据采 集、非结构化数据采集 | 1)对接了省政务数据、第三方外部数据、广东省政务服务网行政业务申请审批数据、地方金融机构上报数据、现有监管系统历史数据等多个数据源,采集接入地方金融机构工商、企业关联图谱、企业税费、司法诉讼、行政处罚、网络舆情、举报投诉、行政业务备案审批、金融机构上报的基本信息、财务和业务数据等 30 多个数据维度,多达 200 多个数据项,采集方式包括结构化采集和非结构化数据采集。2)对监管机构和监管对象进行的如静态信息,动态信息以及其它相关信息的采集,分析获取于第三方渠道的大量非结构化的舆情信息,输出对应监管对象的舆情 信息。 | 智能监管系统数据应用分析实施报告 | |
17 | |||||
18 | 智能监管专题分析服务 | 数据分析应用服务 | 1)通过工商信息,投资股东信息、高管信息,业务信息及可能的业务关联人员信息等构建 7+4类地方金融机构企业关联图谱。 2)从资本充足、资产质量、公司治理、盈利状况、流动性五类风险指标及服务实体经济、社会责任两类附加指标七个维度建 立监管评级模型。3)从地方金融机构业务违规、经营异常、司法涉诉、网络舆情、举报投诉等方面构建各类型风险预警模型。 4)通过智能监管模块自有的智 能图标展示功能将监管信息以 | 数据分析应用服务报告、 小额贷款公司监管评级模型规则说明书、商业保理公司监管评级模型规则说明书 |
动态的方式。 | |||||
19 | 智能监管专题工时及费用估算 | 数据计算服务 | 智能监管系统与省政务数据、外部第三方数据、广东省政务服务网行政业务备案审批数据、7+4类金融机构报送数据、现有监管系统历史数据等多个数据源对 接,采集数据、7+4 类金融机构行业分析、机构风险预警建模、小贷机构监管评级模型、企业关联图谱、网络舆情分析等近 20个业务场景;7+4 类金融机构行业分析基本情况、机构运营情 况、融资情况等数据汇总计算, 7+4 类金融机构企业关联图谱图关系计算,7+4 类金融机构上报数据按各维度、各指标计算汇 总,地方金融机构数据报表统计分析,小贷/商业保理公司监管评级动态计算更新,7+4 类地方金融机构风险预警规则动态判 断,以及非法集资资金交易关联关系图计算等,涉及数据表格 100 多张,以上的业务数据计算 服务。 | 智能监管专题数据计算服务报告 | |
20 | 数据治理服务 | 项目服务进度报告、项目服务总结报告 |
4. 其它要求
4.1 培训要求
人员的技术培训是保证系统顺利运行必不可少的环节,中标人需为用户提供 1 次本项目相关的技术培训。
4.1.2 服务响应要求
(1)服务方式包括:电话服务、远程服务和现场服务等。
(2)应用系统运行维护:提供 7×8 小时响应服务(包括现场服务、紧急事件响应等),出现故障时,快速受理服务请求,根据不同的故障等级在不同时间内进行响应,对于远程或电话无法解决的问题,安排技术人员现场处理,重大故障提供故障分析报告,保证市内 2小时内到达现场解决重大系统故障。
4.1.3 资产归属要求
1.本采购项目不会引起任何已申请、登记的知识产权所有权的转移。
2.投标人需承诺,本采购项目所涉服务成果的知识产权归属按下列第(1)种方式处理:
(1)中标人为履行本采购项目义务所形成的服务成果的知识产权归采购人所有。
(2)采购人基于本采购项目约定委托中标人所提供的服务中涉及的方案、规划、规范性文件等的知识产权归采购人、中标人共同所有,中标人应按采购人书面要求交付该共有部分的成果;中标人在共有部分的基础上进行二次研究的及对二次研究形成的产品、程序等财产进行处置的,需经采购人书面同意,二次研究形成的产品、程序、服务,以及方案、规划、规范性文件等的知识产权归研究者所有,共有部分仍归采购人、中标人共同所有。
3.本采购项目所涉及的数据、系统、数据服务所有权归政府所有。中标人只能用于履行本采购项目之义务。
4.中标人保证向采购人提供的服务成果不存在任何侵犯第三方专利权、商标权、著作权等合法权益。如因中标人提供的服务成果侵犯任何第三方的合法权益,导致该第三方追究采购人责任的,中标人应负责解决并赔偿因此给采购人造成的全部损失。
4.1.4 保密要求
1.中标人应签订保密协议,对其因身份、职务、职业或技术关系而知悉的采购人商业秘密和党政机关保密信息应严格保守,保证不被披露或使用,包括意外或过失。
2.中标人不得以竞争为目的、或出于私利、或为第三人谋利而擅自保存、披露、使用采购人商业秘密和党政机关保密信息;不得直接或间接地向无关人员泄露采购人的商业秘密和党政机关保密信息;不得向不承担保密义务的任何第三人披露采购人的商业秘密和党政机关保密信息。中标人在从事政府项目时,不得擅自记录、复制、拍摄、摘抄、收藏在工作中涉及的保密信息,严禁将涉及政府项目的任何资料、数据透露或以其他方式提供给项目以外的其他方或中标人内部与该项目无关的任何人员。
3.中标人对于工作期间知悉采购人的商业秘密和党政机关保密信息(包括业务信息在内)或工作过程中接触到的政府机关文件(包括内部发文、各类通知及会议记录等)的内容,同样承担保密责任,严禁将政府机关内部会议、谈话内容泄露给无关人员;不得翻阅与工作无关的文件和资料。
4.严禁泄露在工作中接触到的政府机关科技研究、发明、装备器材及其技术资料和政府工作信息。
4.1.5 监理要求
投标人须承诺,在本项目服务开展过程中,如果采购人使用本项目外费用纳入咨询监理机构,则投标人须接受采购人指定的咨询监理机构的监理。
4.1.6 服务团队要求
★投标人须承诺,必须结合广东省地方金融监督管理局《广东省中小企业融资平台项目》中建设的系统和采购的工具开展服务,并遵循采购人所制定的数据运营相关管理办法和要求,根据相关指引提供服务,遵循采购人委托的数据管理方提出的数据管理工作要求。(投标时提供承诺函原件)
4.1.6.1 项目服务人员
★投标人须承诺,如在项目实际执行过程中发生项目人员不能按采购文件要求胜任相关工作的,采购人有权要求更换项目人员,投标人必须在两周内调整为符合采购文件要求且能胜任相关工作的项目人员并到位开展工作,否则采购人有权终止合同并报相关管理部门进行处理;中标后应指派固定的团队为本项目提供专业服务,项目经理负责人须具有项目技术类、管理类等认证证书,团队人员具备相关权威安全技术认证书服务团队成员不得少于 10 人。
(投标时提供承诺函原件)
除因发生采购人要求变更、不可抗力、人员离职或丧失民事行为能力情形外,投标人的项目主要人员未经采购人同意不得调整;投标人如中途更换项目人员,应征得采购人同意,及时补充符合采购文件要求且能胜任相关工作的人员到位开展工作,否则采购人有权终止合同。
投标人须在投标文件中提供项目服务人员的清单并加盖公章;提供投标截止日前的六个月且加盖有关机构部门印章的社保证明(投保单或社会保险参保人员证明);或者单位代缴个人所得税税单。
4.1.6.2 项目进度要求
投标人须在项目中标及合同签订后按时完成本项目所要求的数据治理服务工作。
4.1.6.3 组织实施要求
为使项目按质、按量、按时及有序实施,投标人应建立完善、稳定的项目团队、内部组织管理方式及管理机构、协调机制、技术基础,支撑保障要求及其他相关要求。在项目日常管理和条件保障方面,从行政组织、后勤保障和支撑条件各方面创造良好的服务环境,确保项目的顺利实施。
4.1.6.4 文档管理要求
中标人应在项目完成时,将本项目所有文档、资料汇集成册交付给采购人,所有文件要求用中文书写或有完整的中文注释。验收后,中标人按国家、省以及采购人档案管理要求,
向采购人提供装订成册的纸质文档至少 1 套,电子文档 1 套。
4.1.6.5 质量保证要求
为保证本项目能按时高质的顺利完成,规避项目风险或将风险降至最低程度,中标人应建立项目质量管理体系,包括但不限于质量目标、质量指标、岗位责任、问题处理计划、质量评价、整改完善等内容,并建立奖惩制度。
5. 付款方式
投标人须书面承诺,各阶段服务费用需按采购人所制定的相关结算办法结算。合同款由采购人分期支付给中标人方,具体支付方式和时间如下:
1. 合同款由采购人分期支付给中标人,原则上合同约定的资金支付条件与验收成果挂钩,选择以下方式支付:
2. 签订合同后,中标人在提供经采购人认可的支付申请及财务票据后,采购人在 30个工作日内向中标人支付项目首期款,约为中标金额的 35%,具体以双方签订的合同为准。
3. 自合同签订后一年内,中标人完成合同和招标文件中列举的 70%技术服务和/或可交付物,经采购人组织验收合格后,中标人在提供经采购人认可的支付申请及财务票据,采购人在 30 个工作日内向中标人支付第二期款,约为中标金额的 55%,具体以双方签订的合同为准。
4. 项目合同期满前,中标人完成合同和招标文件中列举的全部服务和/或可交付物,经采购人组织的项目最终验收合格后,中标人提供经采购人认可的支付申请及财务票据,采购人在 30 个工作日内向中标人支付款项,约为中标金额的 10%,具体以双方签订的合同为准。
5.中标人在满足上述支付要求时,须书面提出支付申请函及拟支付金额等额的符合采购人财务管理要求的相应票据,采购人确认后启动支付流程。
每次办理支付前,中标人应书面提出支付申请函及拟支付金额等额的符合采购人财务管理要求的相应发票,采购人在收到中标人申请及发票后 5 个工作日内启动支付流程。
对于满足合同约定支付条件的,采购人应当自收到发票后 30 日内将资金支付到合同约定的中标人账户,不得以机构变动、人员更替、政策调整等为由延迟付款,不得将招标文件和合同中未规定的义务作为向中标人付款的条件。如因政府财政部门审查、财政支付管理流程导致支付延期,支付期限自动顺延,采购人不承担责任,中标人不得以此为由迟延履行或不履行合同义务。
6. 考核标准
本次项目在进行项目交付时,以完成数据治理相关功能开发并完成成果交付作为考核标
准,详细验收标准。