本篇文章5280字,读完约13分钟

贾/文,深圳华奥数据有限公司首席执行官

在2016年10月和2017年12月的两次集体研究中,强调“推进技术集成、业务集成和数据集成,实现跨层次、跨地区、跨系统、跨部门、跨业务的协同管理和服务”,成为我国政府信息化的指导思想。在建设数字中国的进程中,以“三个整合、五个跨越”为指导,构建全面的政府数据治理体系,是打开政务大数据之门的关键。随着国家大数据战略的制定,全国网络信息委员会和各地大数据局的成立,政府的“五跨”数据治理一体化建设如雨后春笋般涌现。

GLDM:数字中国的“五跨”数据治理方法论

但是,在建立本地数据治理系统和构建数据治理集成平台时,虽然“三个集成、五个跨越”是指导思想,但仍然需要一种“五个跨越”的数据治理方法,将“三个集成、五个跨越”的思想与登陆项目的实施联系起来。华奥数据通过在华为生态中的积累,并基于在龙岗、深圳等地的实践经验,总结出一套GLDM(政府逻辑数据模型)方法论,以规范数据治理体系的建立和数据治理集成平台的构建。

GLDM:数字中国的“五跨”数据治理方法论

数据发现时代:如何避免哥伦布难题?

如果将政府中的“五跨”数据源视为已经发现或尚未发现、正在建设或将要建设的小岛屿和大陆(这些小岛屿中相当一部分是“信息岛”),那么“三个整合、五个跨越”的时代可以与15世纪通过航空线路连接小岛屿和大陆并建立全球贸易的地理发现时代相提并论,现在是“数据发现”的时代。在伟大的地理发现时代,像哥伦布这样的早期航海家经常“离开时不知道去哪里;当我到达时,我不知道它在哪里;当我回去的时候,我不知道我去了哪里。Gldm是为了在数据发现的时代给现代人一个“数据导航”,并避免“哥伦布难题”——在构建“五跨”数据治理系统时,我不知道在开始时该做什么,在进行时该做什么,在完成时该做什么。

GLDM:数字中国的“五跨”数据治理方法论

具体来说,由数据治理系统构建的gldm“数据导航”有四个要素:

“海图”(Chart):整理政府信息资源的目录就像在地理大发现时代建立海图的过程,让我们知道哪里有大陆(大数据用户)、岛屿(数据资源)、暗礁(敏感数据)和冰川(难以协调的数据)。“五跨”特征是政府数据不同于企业数据的本质特征。由于政府是一个官僚体系,其各级信息化建设不能像企业一样由一个统一的it部门来建设和运营,而只能由各级、各部门和企业单独建设、独立发展和独立运营,这使得政府信息资源目录成为一项首要和必要的工作。这项研究工作是数据普查和商业普查的混合,其重点是现状研究和需求研究,包括每个委员会的职责和业务?每项业务都有哪些流程和系统?在每个业务和系统中将生成和使用什么数据?委员会和局有什么数据库,这些数据是如何组织的?各委员会和局正在建设和计划建设什么系统,需要什么样的数据?

GLDM:数字中国的“五跨”数据治理方法论

在合并过程中,将收集数据和数据库生成系统和过程、数据源单元和存储位置、数据库类型、数据格式、数据模型、数据标准、数据更新频率和数据接口等元信息。本次普查将记录和描述“三个整合、五个跨越”的难点和瓶颈,如哪里有商业礁,哪里有信息岛,最终形成城市/区域政务数据的全景。由于地方政府职责的规范化(有三个计划、行政授权和其他职责来规范政府部门),这项工作在省、市和区县之间往往有很大的相似性。gldm提取了这些相似之处,使基于gldm的每一个政府信息资源目录都站在了巨人的肩膀上。政府信息资源目录的整理结果将录入元数据管理系统。在政府数据治理系统中,元数据管理系统的基本功能构成了政府信息资源的目录。

GLDM:数字中国的“五跨”数据治理方法论

“航路”:数据共享和交换平台为数据导航开辟了一条航路。目前,国内有很多数据共享和交换平台的产品,也有很多理论和实践探索的文章,所以这里就不做了。

“指南针”:数据标准平台、数据监管平台和数据合规平台犹如指南针,使我们的数据治理体系不会走错方向,避免走弯路、错误路径和邪路。数据治理系统的构建就像建立一个数据工厂。工厂的输入是状态数据(源数据),输出是数据资源(基础库和主题库等)。),质量反馈和安全监督的状态数据。

GLDM:数字中国的“五跨”数据治理方法论

“船”:数据质量管理平台和五跨数据融合平台是数据工厂的关键设备,就像大数据航行中的“船”,真正的“航行”将由这两个平台完成。数据质量管理平台就像船舶的“舵”,控制着船舶的运动;五跨数据融合平台就像一艘船的“引擎”,推动着船向前。

GLDM:数字中国的“五跨”数据治理方法论

包含这四个要素的数据治理系统能够治理和监督元数据(信息目录)、标准化过程、质量和安全,并具有“三个集成、五个跨越”的思想,表现为数据标准化的五个跨越、一致性的五个跨越、及时性的五个跨越、完整性的五个跨越和实体身份的五个跨越,形成了系统完善、易于登陆的数据目录治理、数据标准治理、数据质量治理和数据安全治理

GLDM:数字中国的“五跨”数据治理方法论

数据标准平台:确保五个交叉标准化,使数据处理过程更加可控

在数据的伟大航程中,虽然我们有图表,但图表只让我们知道当前的数据和数据需求,我们仍然不知道数据处理的目标在哪里。我们的目标数据是什么?我们仍有陷入“哥伦布困境”的危险。更让我们担心的是,数据处理的过程是不可预测和无法控制的,数据处理的结果因人而异,因时间而异,因事而异。因此,我们需要为我们的目标数据(数据仓库)设定标准。这些标准越精细,数据处理过程就越可控。

GLDM:数字中国的“五跨”数据治理方法论

状态数据通常是面向业务和应用需求驱动的建模,这意味着在状态数据中,我们可以看到一个社会保障支付和支付记录,一个检查报告和案例,以及一个出生证明和居住登记。、租赁合同和户籍记录等。;目标数据是面向资源和通用数据驱动的建模。实质上,客观世界的映射是在数据空中建立的,而手段是将城市管理服务实体的数据描述集成到数据空.中在目标数据中,我们可以看到城市中的每个人和证书,每个企业和每个社会组织,每个公寓和城市的每个部分,每个汽车和每条道路,以及城市中的每个事物(事件)等等。

GLDM:数字中国的“五跨”数据治理方法论

数据标准平台首先要解决目标数据的建模问题。包括数据编码标准、数据元素标准、数据模型标准、数据存储标准、数据交换格式标准和数据共享接口标准。

其次,数据标准平台应解决状态数据(源数据)从目标到源的逐步标准化问题。因为当前的系统和数据库已经建立,重新发明股票数据的模型、代码、类型、字典、格式和接口是昂贵的。在智能城市建设过程中,将部署大量新的智能应用,这将产生大量的增量数据。如果在新系统的建设过程中直接采用与目标数据兼容的源业务数据标准,后期的数据浪费将大大减少,并节省大量的数据清理成本。因此,数据标准平台需要建立通用的业务数据标准和关键的特殊业务数据标准,并保证这些标准在信息项目建立和验收过程中的采用。

GLDM:数字中国的“五跨”数据治理方法论

第三,数据标准平台还应解决数据处理的标准化问题。由于状态数据和目标数据都已经标准化,从状态数据到目标数据的处理过程将更容易标准化,这样我们就可以在数据工厂中进行标准化建设,建立一个系统化、标准化和智能化的“数据精炼厂”。数据处理的过程标准包括数据清理规则标准、数据融合过程标准和数据质量评估标准。通过目标、来源和流程的标准化,我们可以确保政府大数据的处理过程不会走弯路,不会出错,不会走向相反的方向,不会踩上前人踩过的坑。数据标准化平台不仅有助于制定标准(归纳、发现和分析标准)和管理现有标准,还确保将标准应用于系统设计和开发(标准的注册、发布、订阅和采用注册),对库存和增量数据进行标准合规性测试-通过使用标准发现数据中的问题(检查错误),并智能地标准化问题数据-解决发现的问题(主要是纠正形式错误)

GLDM:数字中国的“五跨”数据治理方法论

数据监管平台和数据合规平台:确保五大跨数据安全,防范数据风险

数据标准平台可以解决数据治理系统中最困难的标准化问题,而数据治理系统中还有另一个重要问题——安全问题。在整理信息资源目录的过程中,各委办和业务系统的数据存在通畅;作为数据保护机构(DPA),如何确保源数据、目标数据、数据处理和应用程序流程不存在安全问题?如何堵住所有数据泄漏点,确保数据不会被随意丢失、非法泄漏、恶意篡改和非法商业化?这取决于数据监管平台。事实上,数据的交易、操作、开放和共享应该置于有效的数据监管之下,这样才能健康有序地进行,否则,在交易、操作、开放和共享过程中会积累大量的风险,这些风险可能会随着未来数据立法和数据政策的明晰而随时爆发。正如证券交易所需要证监会的监管一样,数据交易所和数据运营公司也需要dpa部门的监管,以避免发展成为类似互联网金融混乱的“数据混乱”。“凯撒归凯撒,上帝归上帝”,数据的开发和利用可以通过市场化的手段进行,但数据监管是政府在数据交易和运行中的底线职责,就像财务局对金融业的监管职责、国土资源局对土地资源的监管职责、互联网信息办公室对内容产业和舆论的监管职责一样。

GLDM:数字中国的“五跨”数据治理方法论

欧盟关于数据监督和保护的一般数据保护条例(gdpr)已于2018年5月25日实施。其中,“数据遗忘权”、“数据可移植权”、“数据知情权”、“个人数据处理”等要求正在对中国互联网企业和大数据企业产生重大影响;同时,“个人原则”(长臂管辖原则)和“个人信息退出原则”也将对中国的数据主权和数据立法产生影响。中国的数据保护立法和数据监管机构(dpa)的建立及其监管责任迫在眉睫。数据监管平台可以确保数据治理系统不会出错或变坏。

GLDM:数字中国的“五跨”数据治理方法论

除了dpa部门的数据监管平台外,处理个人信息的企业和政府委、局还需要在dpa的管辖范围内建立一个数据合规平台,以确保数据监管措施的实施,从而防范和控制本单位在数据采集、处理、处理、共享、交换和开放过程中的风险。

GLDM:数字中国的“五跨”数据治理方法论

数据质量治理平台和五跨数据融合平台:确保五跨数据质量,防止gigo

它解决了“数据航行”过程中的海图、航线和罗盘问题,剩下的问题是需要一艘船按照海图沿着航线航行,并将数据携带到罗盘指向的另一边。该船的核心部件是“舵”(数据质量管理平台)和“引擎”(五跨数据融合平台)。这两个平台可以避免gigo的缺点:垃圾入、垃圾出),如在五跨数据的复杂条件下,“使用数据比不使用数据更糟糕”。在从源数据到目标数据的处理过程中,不仅实体会被复制,格式会被混淆,数据也会发生冲突或错误。有两种错误,一种是形式错误,另一种是实质错误。对于形式上的错误,全自动的数据清理可以通过当前的技术手段来完成,但是对于实质性的错误,则不能实现全自动化。此外,在部门职责中通常不允许自动数据清理,并且必须在源业务系统或数据责任部门的人工干预下执行法定数据修改。然而,数据资源库的建设不能等待像千千这样的人工干预。因此,除了自动发现错误、引入手动干预以手动纠正实质性错误(系统将给出建议)和控制源数据的质量之外,它还需要一个数据质量治理平台,该平台不等待手动干预,尽可能保证和提高数据质量,以最大的准确性支持决策分析应用程序,并确保正确的统计意义,并在后台连续处理所有数据问题,并在最短的时间内构建它。

GLDM:数字中国的“五跨”数据治理方法论

如果说数据质量管理平台是一个综合运用技术手段和管理机制管理源数据质量、科学评估各委办数据共享绩效的平台,那么五跨数据融合平台就像一个不停的数据流水线工厂,不断将当前的源数据提炼为目标数据资源。在gldm方法论中,数据质量治理平台是一个具有三层治理网络结构的数据天网系统,包括勘探网络、标准网络和质量网络,而五跨数据融合平台是一个具有六层管道结构的数据工厂系统,包括历史层、标准层、原子层、集成层、市场层和应用层。

GLDM:数字中国的“五跨”数据治理方法论

Gldm:为“数据治理中国计划”做出贡献

gldm数据导航五跨数据治理方法由信息资源目录(图表)、数据共享与交换平台(航路)、数据标准平台和数据监管平台(罗盘)、数据质量治理平台和五跨数据融合平台(船舶)组成。在华奥与华为的合作中,这种方法已成为知识沉淀的最佳形式,指导着最佳实践,使每个大数据中心和数据治理系统都站在巨人的肩膀上,避免了早期城市走过的弯路和错误。作为“三个集成、五个跨越”思想的实践探索,以“三个集成、五个跨越”思想和gldm方法论为指导的数据中心建设正显示出强大的生命力。

GLDM:数字中国的“五跨”数据治理方法论

在过去的30年里,逻辑数据模型(ldm)在金融、电信、能源和交通等许多领域发挥了重要作用。作为数据仓库的领导者,Teradata已经成为世界上最重要的数据公司之一,它在许多行业都掌握了ldm。然而,由于世界上还没有大规模的“三个集成、五个跨越”的实践,跨部门、跨业务的政府数据的逻辑数据模型,即“五个跨越”的ldm,仍然是一个空模型。gldm(五跨政府逻辑数据模型)方法的研究和开发就是为了填补这一空空白。Gldm通过不断总结各省/市/区/县数据中心和数据治理系统的建设经验,逐步提高各级数据中心和数据治理系统的建设水平。

GLDM:数字中国的“五跨”数据治理方法论

在2017年5月的第三届数字博览会上,gldm方法得到了广泛关注,人民日报网、中国新闻社、凤凰财经和贵州地方媒体做了大量报道。华奥公司正与更多的省、市、区、县级大数据中心、大数据局、经济与信息委员会、网络信息办公室和数字办公室合作,总结和分享更多数据治理系统建设的成败经验,丰富gldm方法。

GLDM:数字中国的“五跨”数据治理方法论

在2017年华为生态合作伙伴大会上,华奥和华为联合发布了一个基于gldm方法的中国与中国政府事务数据治理和整合联合解决方案,并在此后多次展示,获得一致认可。华奥愿意与当地政府数据机构一起探索和实践,为“数据治理中国计划”做出贡献。

来源:央视线

标题:GLDM:数字中国的“五跨”数据治理方法论

地址:http://www.yangshinews.com/ysxw/29837.html