该文记录了自己常用的unix的命令
awk的使用
语法
用例
计算文件中某列的总和
|
|
使用awk对字符串进行拆分
|
|
在awk中打印单引号
|
|
AWK中使用判断
在AWK中是可以使用if判断语句的,if(判断条件) 执行语句; else if (判断条件) 执行语句; else 执行语句。
下面的例子,判断文件夹中的所有文件,如果文件的大小为0,则打印该文件的文件名。
逻辑操作
在使用AWK中使用if进行条件判断是,可以使用逻辑操作符进行组合判断,支持的逻辑操作符有:&&、||。
该文记录了自己常用的unix的命令
|
|
|
|
|
|
在AWK中是可以使用if判断语句的,if(判断条件) 执行语句; else if (判断条件) 执行语句; else 执行语句。
下面的例子,判断文件夹中的所有文件,如果文件的大小为0,则打印该文件的文件名。
在使用AWK中使用if进行条件判断是,可以使用逻辑操作符进行组合判断,支持的逻辑操作符有:&&、||。
本文是对Cluster Mode Overview的翻译,请多提宝贵意见。
这个文档给出了关于Spark如何在集群上运行的简短的概述,通过它是对相关组件的理解更加容易。通过读取application submission guide来学习如何在一个集群上发布application。
Spark application在集群上作为一组独立的进程运行,并通过你的主程序(被称为驱动程序)中的SparkContext进行协调。
特别的,要在一个cluster运行,SparkContext能够连接到几个类型的cluster managers(Spark自己的standalone cluster manager、Mesos或YARN),通过application来分配资源。一旦连接到,Spark要求集群中node上的executors进程来为你的application计算并存储数据。接下来,它发送你的应用程序代码(通过JAR或Python文件传递给SparkContext)给executors。最终,SparkContext发送tasks给executors来执行。
本文是对spark文档之Submitting Applications章节的翻译,原文档连接
在Spark的bin目录下的spark-submit脚本被用来发布应用程序到集群中。它能够使用所有被Spark支持的cluster managers的统一接口,因此你不需要为每个application进行配置。
如果你的代码依赖其他项目,你需要将它们打包到你的应用程序中,以便将它分发到集群。为了这样做,需要创建一个assembly jar(或)来包含你的代码和代码的依赖。sbt和Maven都有assembly插件。当创建assembly jar的时候,作为被提供的依赖列出Spark和Hadoop;这些不需要被捆绑,因为他们在运行时,cluster管理器会提供。一旦你有了一个assembly的jar包,你能够调用bin/spark-submit脚本在传递你的jar时进行解析。
对于Python,你可以使用spark-submit的–py-files参数来添加.py,.zip或.egg的文件,来发布你的application。如果你依赖多个Python文件,我们推荐将它们打包到.zip或.egg中。
一旦一个用户application被捆绑,那么这个application可以使用bin/spark-submit脚本来发布。这个脚本需要使用Spark和它的依赖来设置classpath,并支持不同的cluster manager和Spark支持的部署模式:
本文是对spark编程指南的翻译,主要用于自己对spark的理解,原文档链接
Spark 2.0.0默认使用Scala 2.11进行构建和部署。(Spark也可以使用其他版本的Scala进行构建)要使用Scala来编写application,你需要使用一个合适的Scala版本(如2.11.X)。
要编写一个Spark application,你需要在添加Spark的Maven依赖。Spark在Maven中可用的坐标为:
另外,如果你想要访问一个HDFS集群,你需要添加与你的HDFS对应版本的hadoop-client依赖:
本文是Spark 快速开始的翻译文档,会随着自己的实现进行更新
spark提供了一种简单的方法来学习API,那就是Spark的shell。可以以Scala或python的方式来启动shell。
Scala的启动方式:
python的启动方式:
spark的主要抽象是项目的分布式集合,被称为Resilient Distributed Database(RDD)。RDD能够根据Hadoop的输入格式(诸如HDFS文件)来创建,或者由其他RDD转换成为RDD。我们根据Spark源码中的README文件来创建一个新的RDD:
本文介绍了如何在CentOS系统上安装Jzmq
|
|
|
|