結構化數據文件創建DataFrame · Hadoop2.x

**1. json格式文件** （1）示例數據`people.json` ```json {"name":"Michael"} {"name":"Andy", "age":30} {"name":"Justin", "age":19} ``` （2）示例代碼 ```scala import org.apache.spark.SparkContext import org.apache.spark.sql.{DataFrame, SparkSession} object CreateDataFrame { def main(args: Array[String]): Unit = { val spark:SparkSession = SparkSession.builder() .master("local[4]") .appName(this.getClass.getName) .getOrCreate() val sc:SparkContext = spark.sparkContext import spark.implicits._ val df:DataFrame = spark.read.json("file:///E:\\hadoop\\input\\people.json") // 或者使用下面這個方法創建DataFrame也是一樣的 // spark.read.format("json").load("file:///E:\\hadoop\\input\\people.json") df.printSchema() // 打印DataFrame的數據結構（Schema)信息 // root // |-- age: long (nullable = true) // |-- name: string (nullable = true) df.show() // +----+-------+ // | age| name| // +----+-------+ // |null|Michael| // | 30| Andy| // | 19| Justin| // +----+-------+ // 和SQL的select一樣, 對數據個別字段進行提取 df.select("name").show() // +-------+ // | name| // +-------+ // |Michael| // | Andy| // | Justin| // +-------+ // 還可以對某一個字段進行簡單運算 df.select(df("name"), df("age")+1).show() // +-------+---------+ // | name|(age + 1)| // +-------+---------+ // |Michael| null| // | Andy| 31| // | Justin| 20| // +-------+---------+ // 和Sql的where一樣, 對數據進行過濾 df.filter(df("age")>21).show() // 與下面的where方法是一樣的效果 df.where(df("age")>21).show() // +---+----+ // |age|name| // +---+----+ // | 30|Andy| // +---+----+ // groupBy, 對數據聚合, 可以求最大值, 最小值, 數據條數, ... df.groupBy("age").count().show() // +----+-----+ // | age|count| // +----+-----+ // | 19| 1| // |null| 1| // | 30| 1| // +----+-----+ // 創建/覆蓋視圖 df.createOrReplaceTempView("people") // 普通sql查詢語句，需要已經創建了people視圖 spark.sql("select * from people").show() // +----+-------+ // | age| name| // +----+-------+ // |null|Michael| // | 30| Andy| // | 19| Justin| // +----+-------+ } } ``` <br/> **2. csv格式文件** （1）示例數據 ```csv id|name|age 1|darren|18 2|anne|18 3|"test"|18 4|'test2'|18 ``` （2）示例代碼 ```scala import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} object SparkDemo1 { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder() .master("local[*]") .appName(this.getClass.getName) .getOrCreate() import spark.implicits._ val result = spark.read.format("csv") .option("delimiter", "|") // 字段分隔符，默認為 ,” .option("header", "true") // 第一行作為 Schema，而非內容 .option("quote", "'") // 引號字符，默認為雙引號 "" .option("nullValue", "\\N") // 指定一個字符串代表 null 值 .option("inferSchema", "true") // 自動推測字段類型 .load("file:///F:/spark/student.csv") result.show() // +---+------+---+ // | id| name|age| // +---+------+---+ // | 1|darren| 18| // | 2| anne| 18| // | 3|"test"| 18| // | 4| test2| 18| // +---+------+---+ result.printSchema() // root // |-- id: integer (nullable = true) // |-- name: string (nullable = true) // |-- age: integer (nullable = true) } } ```