scala和python哪个更适合大数据

导读：本篇文章新媒号来给大家介绍有关scala和python哪个更适合大数据的相关内容，希望对大家有所帮助，一起来看看吧。

R，Python，Scala和Java，到底该使用哪一种大数据编程语言

首先看你处于什么目的？是在选择一种语言进行学习？还是纯粹的就想知道特点？

PHP：通常用于WEB逻辑脚本

Java：运用广泛：用于WEB逻辑代码，Android应用的开发代码。服务器代码。

Python：这是一种现在发展迅猛的脚本语言。易学好用。都可以用来做web应用了。它最大的特点就是，在中国会的人少，钱多（工资高）。

面向过程语言，初学者入门语言。但难度很高，适合做底层开发，嵌入式开发。

C++：C语言的扩展语言，是面向对象语言，有几个游戏引擎是用C++语言做的，高性能。

scala与python区别有哪些

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。

scala与Python的区别：

1、性能对比

由于Scala是基于JVM的数据分析和处理，Scala比Python快10倍。当编写Python代码用且调用Spark库时，性能是平庸的，但如果程序涉及到比Python编码还要多的处理时，则要比Scala等效代码慢得多。Python解释器PyPy内置一个JIT（及时）编译器，它很快，但它不提供各种Python C扩展支持。在这样的情况下，对库的C扩展CPython解释器优于PyPy解释器。

使用Python在Spark的性能开销超过Scala，但其重要性取决于您在做什么。当内核数量较少时，Scala比Python快。随着核数的增加，Scala的性能优势开始缩小。

当大量的处理其工作时，性能不是选择编程语言的主要驱动因素。然而，当有重要的处理逻辑时，性能是一个主要因素，Scala绝对比Python提供更好的性能，用于针对Spark程序。

相关推荐：《Python基础教程》

2、学习曲线

在用Scala语言编写Spark程序时有几个语法糖，所以大数据专业人员在学习Spark时需要非常小心。程序员可能会发现Scala语法有时会让人发疯。Scala中的一些库很难定义随机的符号运算符，而这些代码可以由没有经验的程序员理解。在使用Scala时，开发人员需要关注代码的可读性。与Scala相比，Java或Python是一个灵活的语法复杂的语言。对Scala开发人员的需求越来越大，因为大数据公司重视能在Spark中掌握数据分析和处理的高效而健壮的开发人员。

Python是为Java程序员学习相对容易的因为它的语法和标准库。然而，Python是不是一个高度并行和可扩展的像SoundCloud或推特系统的理想选择。

学习Scala丰富了程序员对类型系统中各种新抽象的认识，新的函数编程特性和不可变数据。

3、并发性

大数据系统的复杂多样的基础结构需要一种编程语言，它有能力集成多个数据库和服务。在大数据的生态系统中，Scala胜在Play框架提供了许多异步库和容易集成的各种并发原语，比如Akka。Scala使开发人员编写高效的、可读性和可维护性的服务而不是。相反，Python不支持的重量级进程并行在用uWSGI时，但它不支持真正的多线程。

当使用Python写Spark程序时，不管进程有多少线程，每次只有一个CPU在Python进程中处于活动状态。这有助于每个CPU核心只处理一个进程，但糟糕的是，每当部署新代码时，需要重新启动更多的进程，还需要额外的内存开销。Scala在这些方面更高效，更容易共事。

4、类型安全

当用Spark编程时，开发人员需要根据变化的需求不断地重新编码代码。Scala是静态类型语言，尽管它看起来像一种动态类型语言，因为它具有优雅的类型推断机制。作为静态类型语言，Scala仍然提供编译器来捕获编译时错误。

重构像Scala这样的静态类型语言的程序代码比重构像Python这样的动态语言代码要容易得多且简单。开发人员在修改Python程序代码后常常会遇到困难，因为它造成的bug比修复程序原有的bug要多。所以最好是缓慢而安全地使用Scala，而不是快速的、死地使用Python。

对于小型的特殊实验，Python是一种有效的选择，但它并不像静态语言那样有效地扩展到大型软件工程中。

5、易用性

Scala和Python语言在Sparkcontext中有同样的表达，因此通过使用Scala或Python可以实现所需的功能。无论哪种方式，程序员都会创建一个Sparkcontext并调用函数。Python是一种比Scala更便于用户使用的语言。Python不那么冗长，开发人员很容易用Python编写脚本来调用Spark。易用性是一个主观因素，因为它取决于程序员的个人偏好。

6、高级特性

Scala编程语言有几个存在类型、宏和隐式。Scala的晦涩难懂的语法可能很难对开发人员可能无法理解的高级特性进行实验。然而，Scala的优势在于在重要的框架和库中使用这些强大的特性。

话虽如此，Scala没有足够的数据科学工具和库，如Python用于机器学习和自然语言处理。Sparkmlib–机器学习库只有较少的ML算法但他们是理想的大数据处理。Scala缺乏良好的可视化和本地数据转换。Scala无疑是Spark streaming特性的最佳选择，因为Python 通过pySpark 调用Spark.streaming不像Scala那样先进和成熟。

总结

“Scala速度更快，使用方便但上手难，而Python则较慢，但很容易使用。”

Spark框架是用Scala编写的，所以了解Scala编程语言有助于大数据开发人员轻松地挖掘源代码，如果某些功能不能像预期的那样发挥作用。使用Python增加了更多问题和bug的可能性，因为2种不同语言之间的转换是困难的。为Spark使用Scala提供对Spark框架的最新特性的访问，因为它们首先在Scala中可用，然后移植到Python中。

根据Spark决定Scala和Python取决于最适合项目需要的特性，因为每种语言都有自己的优点和缺点。在使用Apache Spark编程语言之前，开发者必须学习Scala和Python来熟悉它们的特性。学习了Python和Scala之后，决定何时使用Scala来Spark以及何时使用Python来调用Spark是相当容易的。Apache Spark编程语言的选择完全取决于要解决的问题。

R，Python，Scala 和 Java，到底该使用哪一种大数据编程语言

如果你对晦涩的统计运算进行繁重的数据分析工作，那么你不青睐R才怪。如果你跨GPU进行NLP或密集的神经网络处理，那么Python是很好的选择。如果想要一种加固的、面向生产环境的数据流解决方案，又拥有所有重要的操作工具，Java或Scala绝对是出色的选择。

有一个大数据项目，你知道问题领域(problem domain)，也知道使用什么基础设施，甚至可能已决定使用哪种框架来处理所有这些数据，但是有一个决定迟迟未能做出：我该选择哪种语言?(或者可能更有针对性的问题是，我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久，迟早要定夺。

当然，没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说，如今大数据方面有三种语言可以选择：R、Python和Scala，外加一直以来屹立于企业界的Java。那么，你该选择哪种语言?为何要选择它，或者说何时选择它?

下面简要介绍了每种语言，帮助你做出合理的决定。

R经常被称为是“统计人员为统计人员开发的一种语言”。如果你需要深奥的统计模型用于计算，可能会在CRAN上找到它――你知道，CRAN叫综合R档案网络(Comprehensive R Archive Network)并非无缘无故。说到用于分析和标绘，没有什么比得过ggplot2。而如果你想利用比你机器提供的功能还强大的功能，那可以使用SparkR绑定，在R上运行Spark。

然而，如果你不是数据科学家，之前也没有用过Matlab、SAS或OCTAVE，可能需要一番调整，才能使用R来高效地处理。虽然R很适合分析数据，但是就一般用途而言不太擅长。你可以用R构建模型，但是你需要考虑将模型转换成Scala或Python，才能用于生产环境，你不太可能使用这种语言编写一种集群控制系统(运气好的话，你可以对它进行调试)。

Python

如果你的数据科学家不使用R，他们可能就会彻底了解Python。十多年来，Python在学术界当中一直很流行，尤其是在自然语言处理(NLP)等领域。因而，如果你有一个需要NLP处理的项目，就会面临数量多得让人眼花缭乱的选择，包括经典的NTLK、使用GenSim的主题建模，或者超快、准确的spaCy。同样，说到神经网络，Python同样游刃有余，有Theano和Tensorflow;随后还有面向机器学习的scikit-learn，以及面向数据分析的NumPy和Pandas。

还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式，将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一，不过这年头，这个概念证明大有用途，以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上，包括Scala和R。

Python往往在大数据处理框架中得到支持，但与此同时，它往往又不是“一等公民”。比如说，Spark中的新功能几乎总是出现在Scala/Java绑定的首位，可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。

与R相反，Python是一种传统的面向对象语言，所以大多数开发人员用起来会相当得心应手，而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营，一派觉得“这非常有助于确保可读性”，另一派则认为，2016年，我们应该不需要就因为一行代码有个字符不在适当的位置，就要迫使解释器让程序运行起来。

Scala

现在说说Scala：在本文介绍的四种语言中，Scala是最轻松的语言，因为大家都欣赏其类型系统。Scala在JVM上运行，基本上成功地结合了函数范式和面向对象范式，目前它在金融界和需要处理海量数据的公司企业中取得了巨大进展，常常采用一种大规模分布式方式来处理(比如Twitter和LinkedIn)。它还是驱动Spark和Kafka的一种语言。

由于Scala在JVM里面运行，它可以立即随意访问Java生态系统，不过它也有一系列广泛的“原生”库，用于处理大规模数据(尤其是Twitter的Algebird和Summingbird)。它还包括一个使用非常方便的REPL，用于交互式开发和分析，就像使用Python和R那样。

我个人非常喜欢Scala，因为它包括许多实用的编程功能，比如模式匹配，而且被认为比标准的Java简洁得多。然而，用Scala来开发不止一种方法，这种语言将此作为一项特色来宣传。这是好事!不过考虑到它拥有图灵完备(Turing-complete)的类型系统和各种弯弯曲曲的运算符(“/:”代表foldLeft，“:\\”代表foldRight)，很容易打开Scala文件，以为你看到的是某段讨厌的Perl代码。这就需要在编写Scala时遵循一套好的实践和准则(Databricks的就很合理)。

另一个缺点是，Scala编译器运行起来有点慢，以至于让人想起以前“编译!”的日子。不过，它有REPL、支持大数据，还有采用Jupyter和Zeppelin这一形式的基于Web的笔记本框架，所以我觉得它的许多小问题还是情有可原。

Java

最终，总是少不了Java――这种语言没人爱，被遗弃，归一家只有通过起诉谷歌才有钱可赚时才似乎关心它的公司(注：Oracle)所有，完全不时髦。只有企业界的无人机才使用Java!不过，Java可能很适合你的大数据项目。想一想Hadoop MapReduce，它用Java编写。HDFS呢?也用Java来编写。连Storm、Kafka和Spark都可以在JVM上运行(使用Clojure和Scala)，这意味着Java是这些项目中的“一等公民”。另外还有像Google Cloud Dataflow(现在是Apache Beam)这些新技术，直到最近它们还只支持Java。

Java也许不是摇滚明星般备受喜爱的首选语言。但是由于研发人员在竭力理清Node.js应用程序中的一套回调，使用Java让你可以访问一个庞大的生态系统(包括分析器、调试器、监控工具以及确保企业安全和互操作性的库)，以及除此之外的更多内容，大多数内容在过去二十年已久经考验(很遗憾，Java今年迎来21岁，我们都老矣)。

炮轰Java的一个主要理由是，非常繁琐冗长，而且缺少交互式开发所需的REPL(R、Python和Scala都有)。我见过10行基于Scala的Spark代码迅速变成用Java编写的变态的200行代码，还有庞大的类型语句，它们占据了屏幕的大部分空间。然而，Java 8中新的Lambda支持功能对于改善这种情况大有帮助。Java从来不会像Scala那么紧凑，但是Java 8确确实实使得用Java进行开发不那么痛苦。

至于REPL?好吧，目前还没有。明年推出的Java 9会包括JShell，有望满足你的所有REPL要求。

scala和python哪个更适合大数据第1张