亚马逊云科技:数据流通和应用的关键在于识别、可见、协作及可操作
数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。
在亚马逊云科技大区产品部总经理陈晓建看来,数据已经是现代发明和之源。如何从数据本身既保证的前提下,同样促进数据的应用,这是摆在众多企业面前的难题。
数据牵涉到很多业务的,要保证,同时也要去满足数据合规的要求。但是,和合规往往和数据应用是矛盾的关系。如何在保证数据的和合规的同时能大限度地促进数据的流通和应用?
很多企业和用户通过IT信息化积累了非常多的数据,但很多数据都是处在孤岛的状态,并没有实现充分的跨组织和跨公司之间的流通,并没有有效地实现数据的协作。这是一对制约整个业务发展、大化的关键的矛盾。到今天有越来越多的企业设立了CDO(Chief Data Officer)的职位,通过技术和流程促进数据的应用和进行业务大化。
在主题为“ 释放数据”的分享会上,陈晓建将企业数据与应用面临的挑战归纳为四个方面,分别是业务数据的识别、可见、协作以及数据的可操作。
识别敏感数据 应对合规挑战
如何评估什么是个人数据、什么是个人敏感数据,这是每个企业要思考,要解决的重大的问题。企业要实现数据的合规需要人,流程,工具相互配合。
为用户的业务和计算负载提供合适的工具,一直是亚马逊云科技投入的方向。在敏感数据的发现与识别也是一样,通过合适的工具产品与解决方案,与合作伙伴一起,为亚马逊云科技用户提供。
敏感数据保护解决方案(Sensitive Data Protection on Amazon Web Services, SDP)是亚马逊云科技转为敏感数据识别与保护这一场景量身定做的方案。这是一个开源的数据及数据隐私云原生解决方案,客户可以在自己账号内部署使用。
利用机器学习、模式匹配等方式自动识别敏感数据,允许客户创建数据目录、使用内置或定制数据识别规则定义敏感数据类型。该解决方案还提供化的管理平台,客户可通过网页应用程序对敏感数据资产进行可视化管理。通过敏感数据保护解决方案,客户可以加速实现业务数据合规,为下一步释放数据铺平道路。
特别适用于两种场景,一是存量数据多且分散,需要使用这个方案来发现四处分散的数据。二是对于数据类型不好判断的情况下,可以使用这个方案自动根据合规要求来识别,提高准确率。
数据可见 被有效地发现、共享和协作
数据可见指的是在一个公司内部有很多的业务数据,分别分布在不同的“烟囱”(silo)里,在不同用户的数据的“烟囱”里如何实现公司内部跨组织之间数据的可见并共享。
数据可见是企业内不同角色挖掘数据的前提,也是不同治理模式协同的基础。
每个企业的应用场景都是不同的,IT信息化做得也不同,数据的处理和分布也是不同的。在这个层面,往往会需要有多个角色和多个团队来进行协同的开发,譬如说,业务人员,业务人员背后的应用开发人员和数据分析的人员等等,在不同的阶段可能还会有许多数据分析和数据开发的团队。
数据在不同的业务场景下,也有很大的不同:
是数据本身结构不同。ERP的订单数据往往是结构化的数据,通常存在数据库里面,但是广告业务的数据往往都是一些非结构化的数据,包括文本,也可能包括图片、视频等。
二是数据的使用要求不同,有的数据分析是定期汇总。但像类似广告这样的在线竞争营销系统,需要的数据,能够完成非常高的实时性,往往在毫秒级别就要完成快速的数据应用并且能输入结果。针对不同的数据需求,数据本身的类型和数据所处的环境,包括数据所使用的这些要求,整个数据团队需要应对不同的数据引擎,既要能处理来自于数据库的数据引擎,类似于ERP结构化的数据,还有要处理数据分析可能使用的数据仓库的一种非结构化数据引擎。还有可能有很多三方的软件,包括可能像类似于Salesforce这样三方常用的软件,从不同的数据源中汇聚形成数据。这是每个企业应对的挑战。
在数据团队和业务团队协作方式上,集中式和联邦式是比较常见的两种类型,
集中式:负责治理运营的人主要集中在数据团队并负责所有治理工作,集中式方式能够实现快速的决策和的执行。这种结构较为简单,易于实施和控制。适合刚开始数据分析之旅和小型组织的客户。
联邦式:总的治理原则/政策有特定团队负责,但负责治理运营的人可以分散在各业务线,这样业务部门拥有自己的数据,并在组织的监督下做出决策,以满足其特定需求和目标。适合多BU的中大型企业或跨国企业。
两种类型的协作方式都需要多个角色协同,特别是联邦式治理是对“数据可见”需求迫切。
在这个客户需求背景下,亚马逊云科技在去年推出一项全新的数据管理服务Amazon DataZone,让每个人都能看见数据,数据。它可以让客户快、轻松地对存储在亚马逊云科技、客户本地和三方来源的数据进行编目、发现、共享和治理。
借助Amazon DataZone可以使用精细的控制工具管理和治理数据访问权限,确保数据访问发生在正确的权限和正确的情境之下。
Amazon DataZone使数据、数据科学家、分析师和业务用户可以轻松访问整个组织的数据,从而发现、使用数据,通过数据进行协作来获得洞察。
多方协作:多方数据地共享和分析
多方数据协作为行业注入活力,企业之间需要产业上下游数据协作来快速,而企业需要在和创造之间寻求平衡。
在实际的场景中,数据协作的所有参与者都需要面对数据保护与业务之间的权衡。现在有一些企业实现数据协作的方式是向合作伙伴提供数据副本,并依赖合同协议防止滥用。但是,显而易见,这样的方式仍然发生了数据移动,依然存在数据误用和泄漏的风险。
亚马逊云科技推出了Amazon Clean Rooms,实现了匹配、分析和协作彼此的数据,而不需要移动或者暴露原始数据,地实现数据分析协作。
使用Amazon Clean Rooms,用户可以在几分钟内创建一个的数据Clean Room,通过创建协作项目,实现数据的多方协作。而对于数据提供方而言,不仅可以通过数据预加密来对数据进行保护,而且因为所有成员都是直接从自己的Amazon S3贡献数据,从而真正实现了只有数据查询和分析而没有数据移动。
值得强调的是,Amazon Clean Rooms提供了一个密态计算的环境,数据的提供方可以对数据进行预加密,从而在Clean Rooms 环境中的数据以加密的形态完成数据分析操作,并将分析结果解密并返回,从而在数据的到大保护的同时充分在协作方之间开发了数据。
生成式AI时代,企业需要多三方的数据来协作。而三方数据的却并非易事。Amazon Data Exchange可以大大简化三方数据的过程
Amazon Data Exchange 使客户能够轻松在云上找到、订阅和使用三方数据。
AWS Data Exchange已经可以提供过3500种的三方数据,数据来源包括金融,天气,地理空间,健康医疗等等非常多的行业和领域。
而通过Amazon Data Exchange数据非常简便,支持包括Amazon S3注入,查询表接口(query tables)以及API调用等多种的访问方式。 对于像生成式ai的模型训练这样的场景来说,用户只需要将下单的数据集注入到Amazon S3数据湖,就可以使用数据分析工具进行数据处理进而开始模型训练了。
所有数据在存储和传输时都是加密的。亚马逊云科技整合了身份和访问控制管理系统(IAM)来设定权限,以及来监控实际的访问过程。
包括像Amazon DataZone为了实现数据的访问,还有一个很重要的工作就是在Amazon Clean Rooms里面怎么实现的计算,在这个层亚马逊云科技做了数据全链条的加密,不光是在存储的时候,在传输的时候、计算的时候都实现了加密,这对解决数据有效的共享都是的。
亚马逊云科技提供了特定场景下的解决方案比如Amazon DataZone,
Amazon Data Exchange,Amazon Security Lake,这背后不只是技术的能力,亚马逊云科技拥有的产品尤其是化的产品能力也是至关重要的,只有有了这些能力才能让用户放心地去用。
在阻碍数据共享的很重要的因素还是在技术上的一些能力,可能没有在数据和方面能都做得非常好,而Amazon DataZone、Amazon Data Exchange,致力于在和功能方面能都做到比较让客户满意,真正实现对生产系统的支撑能力。
sos2023.b2b168.com/m/