{大数据}Spark SQL-腾科IT教育官网

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

1.易整合：

2.统一的数据访问方式：

3.兼容Hive：

4.标准的数据连接：

DataFrames：

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验。

创建DataFrames：

在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口，在spark-2.2.0中已经内置了一个spark：

1.在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上

[hadoop@hdp08 ~]$ hadoop fs -rm -r /work/person.txt

person.txt

1,stone,30

2,jacky,28

3,mary,20

4,micky,27

5.Tom,32

2.在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割

scala>val lineRDD = sc.textFile("hdfs://hdp08:9000/work/person.txt").map(_.split(","))

3.定义case class（相当于表的schema）

scala>case class Person(id:Int, name:String, age:Int)

4.将RDD和case class关联

scala>val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

5.将RDD转换成DataFrame

scala>val personDF = personRDD.toDF

6.对DataFrame进行处理

scala>personDF.show

DataFrame常用操作

//查看DataFrame中的内容

personDF.show

//查看DataFrame部分列中的内容

personDF.select(personDF.col("name")).show

personDF.select(col("name"), col("age")).show

personDF.select("name").show

//打印DataFrame的Schema信息

personDF.printSchema

//查询所有的name和age，并将age+1

personDF.select(col("id"), col("name"), col("age") + 1).show

personDF.select(personDF("id"), personDF("name"), personDF("age") + 1).show

//过滤age大于等于18的

personDF.filter(col("age") >= 18).show

//按年龄进行分组并统计相同年龄的人数

personDF.groupBy("age").count().show()

SQL风格语法：

如果想使用SQL风格的语法，需要将DataFrame注册成表

personDF.createOrReplaceTempView("t_person")

val sqlDF = spark.sql("SELECT * FROM t_person")

sqlDF.show()

//查询年龄较大的前两名

spark.sql("select * from t_person order by age desc limit 2").show

//显示表的Schema信息

spark.sql("desc t_person").show

以编程方式执行Spark SQL查询：

编写Spark SQL查询程序

通过反射推断Schema

创建一个object为net.togogo.sql.InferringSchema

package net.togogo.sql

import org.apache.spark.{ SparkConf, SparkContext }

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.SparkSession

object InferringSchema {

def main(args: Array[String]) {

// val spark = SparkSession

// .builder()

// .appName("Spark SQL basic example")

// .config("spark.some.config.option", "some-value")

// .getOrCreate();

//创建SparkConf()并设置App名称

val conf = new SparkConf().setAppName("SQL-1");

//SQLContext要依赖SparkContext

val sc = new SparkContext(conf);

//创建SQLContext

val sqlContext = new SQLContext(sc);

//从指定的地址创建RDD

val lineRDD = sc.textFile(args(0)).map(_.split(","));

//创建case class

//将RDD和case class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt));

//导入隐式转换，如果不到人无法将RDD转换成DataFrame

//将RDD转换成DataFrame

import sqlContext.implicits._

val personDF = personRDD.toDF();

//注册表

personDF.createOrReplaceTempView("t_person");

//传入SQL

val df = sqlContext.sql("select * from t_person order by age desc limit 2");

//将结果以JSON的方式存储到指定位置

df.write.json(args(1));

//停止Spark Context

sc.stop();

}

//case class一定要放到外面

case class Person(id: Int, name: String, age: Int)

将程序打成jar包，上传到spark集群，提交Spark任务

/home/hadoop/apps/spark/bin/spark-submit \

--class net.togogo.sql.InferringSchema \

--master spark://hdp08:7077 \

/home/hadoop/schema.jar \

hdfs://hdp08:9000/work/person.txt \

hdfs://hdp08:9000/work/out

查看运行结果

[hadoop@hdp08 ~]$ hadoop fs -cat /work/out/part-00000-af7ccf43-af95-48f1-8470-e8d309f8725d-c000.json

通过StructType直接指定Schema：

创建一个object为net.togogo.sql.SpecifyingSchema：

package net.togogo.sql;

import org.apache.spark.sql.{Row, SQLContext}

import org.apache.spark.sql.types._

import org.apache.spark.{SparkContext, SparkConf}

object SpecifyingSchema {

def main(args: Array[String]) {

//创建SparkConf()并设置App名称

val conf = new SparkConf().setAppName("SQL-2")

//SQLContext要依赖SparkContext

val sc = new SparkContext(conf)

//创建SQLContext

val sqlContext = new SQLContext(sc)

//从指定的地址创建RDD

val personRDD = sc.textFile(args(0)).map(_.split(" "))

//通过StructType直接指定每个字段的schema

val schema = StructType(

List(

StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)

)

//将RDD映射到rowRDD

val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))

//将schema信息应用到rowRDD上

val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)

//注册表

personDataFrame.registerTempTable("t_person")

//执行SQL

val df = sqlContext.sql("select * from t_person order by age desc limit 4")

//将结果以JSON的方式存储到指定位置

df.write.json(args(1))

//停止Spark Context

sc.stop()

}

将程序打成jar包，上传到spark集群，提交Spark任务

/home/hadoop/apps/spark/bin/spark-submit \

--class net.togogo.sql.InferringSchema \

--master spark://hdp08:7077 \

/home/hadoop/schema.jar \

hdfs://hdp08:9000/work/person.txt \

hdfs://hdp08:9000/work/out1

查看结果

[hadoop@hdp08 ~]$ hadoop fs -cat /work/out1/part-00000-af7ccf43-af95-48f1-8470-e8d309f8725d-c000.json

数据源：

JDBC：

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

从MySQL中加载数据（Spark Shell方式）：

1.启动Spark Shell，必须指定mysql连接驱动jar包

/home/hadoop/apps/spark/bin/spark-shell \

--master spark://hdp08:7077 \

--jars /home/hadoop/mysql-connector-java-5.1.45.jar \

--driver-class-path /home/hadoop/mysql-connector-java-5.1.45.jar

--executor-memory 1g

--total-executor-cores 2

2.从mysql中加载数据

scala> case class Emp(empno: Int, ename: String, job:String,mgr:Int,hiredate:java.util.Date,sal:Float,comm:Float,deptno:Int)

scala>var sqlContext = new org.apache.spark.sql.SQLContext(sc);

scala> val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://hdp08:3306/sqoopdb", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "emp", "user" -> "root", "password" -> "root")).load()

3.执行查询

jdbcDF.show()

将数据写入到MySQL中（打jar包方式）

1.编写Spark SQL程序：

package net.togogo.sql

import java.util.Properties

import org.apache.spark.sql.{SQLContext, Row}

import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}

import org.apache.spark.{SparkConf, SparkContext}

object JdbcRDD {

def main(args: Array[String]) {

val conf = new SparkConf().setAppName("MySQL-Demo")

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

//通过并行化创建RDD

val personRDD = sc.parallelize(Array("1 tom 5", "2 jerry 3", "3 kitty 6")).map(_.split(" "))

//通过StructType直接指定每个字段的schema

val schema = StructType(

List(

StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)

)

//将RDD映射到rowRDD

val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))

//将schema信息应用到rowRDD上

val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)

//创建Properties存储数据库相关属性

val prop = new Properties()

prop.put("user", "root")

prop.put("password", "root")

//将数据追加到数据库

personDataFrame.write.mode("append").jdbc("jdbc:mysql://hdp08:3306/sqoopdb", "sqoopdb.person", prop)

//停止SparkContext

sc.stop()

}

1.用maven将程序打包

2.将Jar包提交到spark集群

/home/hadoop/apps/spark/bin/spark-submit \

--class net.togogo.sql.JdbcRDD \

--master spark://hdp08:7077 \

--jars /home/hadoop/mysql-connector-java-5.1.45.jar \

--driver-class-path /home/hadoop/mysql-connector-java-5.1.45.jar \

/home/hadoop/schema.jar

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

学习文章

{大数据}Spark SQL

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们