### 創建RDD
`parallelize`(*c*,*numSlices=None*)[\[source\]](http://spark.apache.org/docs/preview/api/python/_modules/pyspark/context.html#SparkContext.parallelize)[
](http://spark.apache.org/docs/preview/api/python/pyspark.html?highlight=parallelize#pyspark.SparkContext.parallelize "Permalink to this definition")
```python
sc.parallelize([1,2,3,3,4,5])
```
### map
> 將一個RDD中的每個數據項,通過map中的函數映射變成一根新的元素。
```
sc.parallelize([1,2,3,3,4,5]).map(lambda x:x+1).collect()
```
### flatMap
> 合并所有的輸出為一個list

### distinct
> 對RDD元素進行去重操作
### repartition/coalesce
> 對RDD重新分區
### randomSplit
> 該函數根據weights權重,講一個RDD切分成多個RDD;權重的參數是一個Double數組,第二個參數為random的種子,基本可忽略