掘金圈 深圳新房 云计算构建云端大数据架构,那么有哪些好处呢?

云计算构建云端大数据架构,那么有哪些好处呢?

广告4

云计算构建云端大数据架构,那么有哪些好处呢?

这篇文章中,我们将介绍云计算环境下流行的大数据框架,找出这些大数据框架的一些特征,并探索其中的一些关键问题。文章根据资源管理大数据框架的主要特性对其进行了分类,并将其与其他具有相似特性的框架进行了比较,最后给出了与其相关的建议最佳实践。

简介

虽然移植到云计算的好处众所周知,但是在大数据分析的背景下,这种好处就更加明显了。大数据的本质是使用 PB (即将成为 EB和 ZB)数据。商业分析需要使用数据密集型应用程序,而云环境的可扩展性对实现可行部署至关重要。使用云端技术还有助于企业间更容易的协作和连接,简化数据共享,并允许更多员工访问相关的分析。

信息技术领导们肯定了将大数据转化为云的好处,但要让主要的利益相关者和高级管理人员购买概念则要复杂得多。但使用云和大数据的结合的确有商业意义,因为这将允许优化业务视图,并将促进基于相关数据的决策。

举例来说,生产实物产品的公司的首席运营官可以从获取供应链优化数据和追踪缺陷的有效机制中获益很多。类似地,寻求增加顾客忠诚和参与的 CMO,以及寻求增加收入、降低成本和进行战略投资的 CFO,都依赖于数据来做出决策。不管从哪个角度看,基于云的敏捷平台和大数据的应用,都会推动企业的运作,推动企业目标的实现。

据2020-2025年大数据市场报告,到2020年,全球大数据市场规模将从1389亿美元增至2294亿美元。
大数据与云计算历史

由于数据平台使用了大量的可视化硬件资源,以减少成本和优化结果,因此大型分析项目高度依赖于有效的资源管理。体系结构的复杂性给这种管理和资源带来了挑战。所以,我们应该仔细考虑要处理多少数据,并且设计一个架构,它可以同时支持当前应用和未来应用的最佳性能。

在此之前,网格、计算机集群和其他高性能超级计算机一直是高级计算项目的资源。集群计算是这种框架的主要应用环境。虽然近几年将这种执行转移到云上的讨论越来越多,但网格计算环境(或其他分布式 HPC环境)中的虚拟组织管理专门满足应用程序需求的资源(外部和内部)。由于安全性的原因,吸引本地存储敏感数据并不奇怪,但当存储器不能在内部存储时(如企业中的数据),组织发现必须迁移到云存储解决方案。
虽然云计算可能是发展大数据的核心,但基于云的大数据应用解决方案与普通的解决方案有很大不同。常规云解决方案提供一些松散相关的应用程序,其细粒度的架构被设计用来服务大量用户。这类用户通常独立运行于不同的位置,通常具有非共享或私有数据。这个数据可能主要是面向批处理的,并且包含很多交互。它经常被重新定位,以适应高动态资源需求。尽管如此,在对资源进行自动管理的需求下,大数据和常规扩展解决方案都具有一些共同的特性。

为了提高云的灵活性和效率,云计算企业正在成长和成熟,完善和改进云环境。云端供应商也在扩展他们的服务,通常包括数据湖架构。这个平台为 BI、云操作、数据库、 OLAP、数据仓库和其他开发工具提供了一套增强的生产力套件。

大数据云资源管理框架

各种计算基础结构已被用于不同的应用领域,以批处理方式使用商品计算资产处理大型数据库。本文旨在探讨云计算环境中使用的一些流行的大数据资源管理框架。下面的图表可以帮助我们直观地对大型数据管理结构进行分类。

大数据框架

现代商业、研究界和 IT产业都在感受到大数据云计算的影响,纷纷推出新的、具有变革性和破坏性的大数据解决方案和技术,以推动许多企业进行创新,做出基于数据的经营决策。提供基础架构、技术和大数据分析的现代数据云计算服务有助于加快大数据分析的步伐并降低其成本。

虽然存在很多选择,但关键是要选择最适合特定业务的框架。这一选择常常归结为应用需求,并权衡每种情况的优缺点。很多方法都是基于应用程序使用场景的,可能会涉及到很多细节。必须先确定几个关键因素,然后才能进行云中署大数据应用。下面我们讨论选择一种主要的管理框架的优缺点。

一、处理速度

当评估不同资源管理结构的有效性时,处理速度是一个重要的性能度量工具,它基于便于对内存或磁盘进行数据传输的读写(I/O)。同时也测量了特定时间内两个通信单元之间的数据传输率。一些资源管理框架的性能会更好是有原因的。然而,研究发现,虽然某些框架在处理较小的任务时性能会更好,但另一些框架在处理较大的数据源时会更快。但当数据集输入增加时,所有框架的“加速”比率下降。

二、容错

度量组件出现故障时,系统的其余部分继续运行的方式称为容错。成百上千个错综复杂的互连节点将在执行特定任务的高性能计算系统中进行评估。造成故障的结果应对整个计算的影响很小或无影响。有些框架比其他框架有更高的容错能力,而有些框架在涉及大量数据传输时可能会超出容错范围。用 PageRank算法进行的研究被用来测试多个框架的性能,结果发现,在较小的数据集中,性能是可以很好衡量的,但随着数据集的增加,性能会“加速”下降。有些数据集可能变得如此庞大,以致于有些系统无法在不崩溃的情况下处理它们。

3.扩展性

公司依赖及时处理数据来解决高价值的业务问题。能同时大规模地执行多个计算,就能减少业务相关计算的工作量、整体时间和复杂性。可伸缩性是指通过在运行时分配额外资源以适应负载或工作量(或大小)的变化。扩展性可用来增加所需资源(按比例放大),或减少所需资源(按比例缩小)。所以可扩展性需要把多个条件合并成一个单独的算法。调查显示,框架还能在不同层次产生可扩展性能。

4.安全

与使用内部数据存储相比,大多数大数据应用程序更倾向于迁移到云环境中,这样不同的用户就可以访问或记录相同的隐私信息。在大数据平台中,数据完整性和安全性一直是首要问题,但随着云计算服务的广泛应用,这方面将进一步扩大。因为暴露给多个用户是出于自己的原因而寻求数据,这反过来又会增加数据面临的隐私和安全风险。

安全被分成几个类别,每个类别都需要通过不同级别的加密来进行不同级别的身份验证和授权访问。一些框架在其访问示意图中使用了加密机制,而另一些框架则允许对其访问和加密进行密码控制。不过,其他公司也没有提供任何系统和内置的安全措施。

尤其是对于年轻组织来说,速度和信息量的增长可能是惊人的。但利用云计算可以从根本上改变任何运作效率和数据驱动的组织。

贵组织是否将大数据迁移到了云中?我想知道这一举动会如何影响你的数据分析质量和速度。和我们分享一下如何帮助你改进组织运作。

广告5

本文来自网络,不代表掘金圈立场,转载请注明出处:http://www.jjq6.com/wulian/20210110/357.html

作者: summer

上一篇
下一篇

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

13361274590

在线咨询: QQ交谈

邮箱: 1584605069@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部