Apache Spark for Azure HDInsight-白红宇

Apache Spark for Azure HDInsight

阅读量：2235 次

发布时间：2019-05-09

本文共 1919 字，大约阅读时间需要 6 分钟。

1. 前言

Azure HDInsight 是100%基于Hadoop的数据分析处理方案。在目前的大数据处理解决方案中，Spark的性能优于Hadoop，这是一个普遍的共识（今后再谈论原因）。Spark占用资源少，并且效率高，受到了很多超大数据处理者的欢迎，Windows Azure 在其HDInsight中也引入了Spark的部分。

2. 什么是Spark

Apache Spark 是一个开放源代码处理框架，用于运行大型数据分析应用程序。Spark 构建于内存中引擎之上，以对大数据的高性能查询而著称。它利用并行数据处理框架，可将数据保留在内存中，或在需要时保留到磁盘中。这可让 Spark 将针对 HDFS 中的数据的各种任务（如 ETL、批处理和交互式查询等）的速度提高 100 倍，并提供这些任务的通用执行模型。使用 Azure 云，Apache Spark 的部署变得非常简单且经济高效，无需购买任何硬件，也无需配置任何软件，还可以使用完整的笔记本体验来创造极具吸引力的叙述，并与第三方 BI 工具集成。

3.特性

Spark的最大优势，也是效率更高的一个重要原因是适用于大数据的内存中数据处理框架。Spark的几大特性归纳如下：

•将针对大数据的查询速度提高 100 倍

•查询、流式处理、机器学习

•适用于多个工作负载的通用执行模型

•高度可用和容错

•云灵活性

•与第三方 BI 工具集成

•只需几次点击即可完成部署

1）适用于多个任务的一个执行模型

Apache Spark 利用通用执行模型对存储在 Azure 存储空间中的数据执行多种任务，如 ETL、批处理查询、交互式查询、实时流式处理、机器学习和图形处理。这可让你使用 Spark for Azure HDInsight 近乎实时地解决大数据挑战，如欺诈检测、点击流分析、财务分析、从连接的传感器和设备 (IoT) 遥测、社交分析、“始终可用”ETL 管道和网络监视。

2）交互式方案的内存中处理

如今的用户期望即刻获得问题的答案，而不是等待几分钟、几小时甚至几天。Apache Spark 将数据保留在内存中，在处理 Hadoop 中的大型数据集时可将查询速度提高多达 100 倍，从而实现了这一期望。这使 Spark for Azure HDInsight 非常适合于为密集型大数据应用程序加速。

3）实时方案的实时处理

大数据是当今互连世界的直接体现。Spark Stream for HDInsight 是应对实时方案挑战的理想之选。它可实现各种机遇，包括物联网 (IoT) 方案（如实时远程管理和监视，或是从移动电话或连接的汽车等设备进行深入了解）。

4）与 Hadoop 生态系统集成

Spark 与 Azure HDInsight 和整个 Hadoop 生态系统集成，可利用 Azure Blob 中的数据。此外，Spark 还与 YARN 集成，可与单个数据平台上的其他 Hadoop 引擎协同工作，也可与 HDFS 中的相同共享数据配合使用。

5）利用选择的 BI 工具

Spark for HDInsight 具有多种第三方 BI 集成，可对针对 Spark 的交互式查询进行可视化处理。使用·Microsoft Power BI、Tableau、Qlik 和 SAP Lumira 分析和以可视化方式浏览数 TB 到数 PB 的大数据。

6）轻松安装，快速获得结果

使用 Spark for HDInsight，无需花时间进行安装或设置。Azure 替你完成操作。只需几分钟即可启动并运行，并且无需购买新硬件和其他前期成本即可部署 Spark。

7）针对大数据的灵活容量

借助 Azure 云的强大功能，Spark for HDInsight 可更轻松地创建任意大小的群集来按需处理任意数量的数据。我们只对你实际使用的计算和存储收取费用。

8）高可用性可保证业务连续性

对于所有 Spark for Azure HDInsight 群集，Azure 都提供 99.9% 的 SLA（由 Microsoft 支持），使你具有连续性和保护来应对灾难性事件。Azure 还提供 24/7 全天候企业支持和群集监视。

9）根据业务需求增加或减少正在运行的 Apache Spark 群集

使用每个 HDInsight Spark 群集上的缩放功能，你可以利用云的灵活性。通过更改滑块的参数，可增加或减少正在运行的 Apache Spark 群集。

4.相关链接

1）Spark

2）Hadoop

3）Spark 架构

4）Spark 介绍

你可能感兴趣的文章