编程知识 cdmana.com

Apache Spark 3.0 拥抱大数据处理分析引擎

目录

资源概述

速度

使用方便

概论

无处不在


 资源概述

github代码库:https://github.com/apache/spark

Python,Scala,Java一睹为快示例:http://spark.apache.org/examples.html

Spark Java版本示例:https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

作为Java编程开发者,官网已经尽可能为我们提供便利了,你想要的都在这里:

 俗话说,知子莫如父,Apache spark的特性和版本指导都可以准确找到:http://spark.apache.org/documentation.html

Spark能干什么,请大家务必记住以下这些特性:

速度

运行工作负载的速度提高了100倍。

Apache Spark使用最新的DAG调度程序,查询优化器和物理执行引擎,可实现批处理和流数据的高性能。

Hadoop和Spark中的逻辑回归

使用方便

使用Java,Scala,Python,R和SQL快速编写应用程序。

Spark提供了80多个高级操作员,可轻松构建并行应用程序。您可以 从Scala,Python,R和SQL Shell 交互使用它。

df =火花。阅读json “ logs.json”  df。其中“年龄> 21”    。选择“ name.first” 显示
Spark的Python DataFrame API
通过自动模式推断读取JSON文件

概论

结合使用SQL,流和复杂的分析。

星火权力库,包括一叠 SQL和DataFramesMLlib机器学习, GraphX星火流。您可以在同一应用程序中无缝组合这些库。

无处不在

Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。

您可以在EC2Hadoop YARNMesosKubernetes上使用其独立集群模式运行Spark 。访问HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive以及数百种其他数据源中的数据。

切记:官网从来都是最好的老师,道听途说不足为信!

版权声明
本文为[boonya]所创,转载请带上原文链接,感谢
https://blog.csdn.net/boonya/article/details/108425686

Scroll to Top