### RDD實現詳解
RDD時Spark最基本的數據抽象
- 具備像MapReduce等數據流模型的容錯性
- 并且允許開發人員在大型集群上執行基于內存的計算。
現有的數據流系統對兩種應用的處理并不高效
- 迭代式算法(圖應用和機器學習領域)
- 交互式數據挖掘工具
這兩種情況下,將數據保存在內存中能夠極大的提高性能。
為了有效的實現容錯,RDD提供了一種高度受限的共享內存,即RDD是只讀的,并且只能通過其他RDD上的批量操作來創建。
> 上面說的有些抽象哦,下面再詳細介紹吧
Spark的目標是為了基于工作集的應用(即多個并行操作重用中間結果的應用)提供抽象。
#### 1. 什么是RDD
制度的、分區記錄的集合。RDD只能基于在穩定物理存儲中的數據集和其他已有的RDD上執行確定性操作來創建。
> RDD的創建
- 由一個已經存在的Scala集合創建
- 由外部存儲系統的數據集創建,包括本地的文件系統,還有所有Hadoop支持的數據集,比如HDFS、HBase
RDD創建后,就可以在RDD上進行數據處理。
RDD支持兩種操作:
- 轉換(trans-formation):即從現有的數據集創建一個新的數據集
- 動作(action):即在數據集上進行計算后,返回一個值給Driver程序。
> RDD支持的轉換: map、filter、flatMap、mapParttions、sample
#### 2. RDD的轉換和DAG的生成
[Spark 在反作弊聚類場景的實踐](https://blog.csdn.net/huangshulang1234/article/details/78828499)
[利用spark做文本聚類分析](https://blog.csdn.net/qq_30843221/article/details/54909788)
ifast
[知乎-該如何做大中型 UGC 平臺(如新浪微博)的反垃圾(anti-spam)工作?](https://www.zhihu.com/question/20103086)
[Facebook 是怎么做反垃圾信息的 (antispam)? 都有哪些可取之處?](https://www.zhihu.com/question/29814056)
[知乎-反垃圾(Anti-Spam)](https://www.zhihu.com/topic/19570555/hot)
[反垃圾中的文本相似度對比是怎么做的?](https://www.zhihu.com/question/23945183)
- 在看的書和文章
- Java程序員手冊
- 思維方式
- 面向服務
- Dubbo
- StringBoot
- 001.應用部署
- 002.注解學習
- SpringCloud
- SpringCloud入門
- Dbs
- 分布式
- Ffp
- 多線程
- 多線程小知識
- Java鎖認識
- Netty
- Netty學習目錄
- 讀寫事件流程分析與相關API
- 數據
- 大數據學習
- 學習目錄
- Hadoop學習
- Hadoop組建安裝
- ssh配置免密登陸
- Hadoop偽集群模式
- HBase偽集群模式
- Hive安裝
- 常用操作命令
- 問題記錄
- DOLIST
- 學習資料
- Spark
- 一些概念介紹
- 數據庫
- Oracle相關
- 批量測試數據生成
- MySQL相關
- Redis
- 常用操作
- 機器學習
- 認識
- Kafka
- 監控
- 分布式相關
- RPC
- 中間件
- ElasticSearch
- ES環境搭建
- Python客戶端創建索引
- Es的api常用操作
- SQL查詢引擎
- Es數DB的數據同步
- ActiveMQ
- ActiveMQ介紹
- 分享
- Skyeye
- 組件安裝配置
- Dubbo服務Demo應用部署
- Kafka安裝配置
- RabbitMq配置
- Docker
- Docker學習文章
- Docker的大數據平臺之路
- Docker環境搭建
- ubuntu16安裝docker
- Docker鏡像加速
- 使用Docker快速搭建中間件
- Docker環境使用mysql
- Docker環境的中間件搭建匯總
- Docker鏡像容器管理
- Docker鏡像創建
- Docker創建可用的系統容器
- Kubernetes
- etcd安裝
- flanneld安裝
- kubernetes環境安裝
- kubernetes源碼編譯
- Linux相關
- Linux操作系統
- Deepin操作系統
- 新系統環境準備
- Linux系統小工具
- Linxu配置時間服務器同步
- DNS服務器dnsmasq
- Linux命令
- 常用命令
- 計算機基礎
- README
- 數據結構
- 面試題總結
- 計算機組層原理
- 計算機組層原理
- 其它語言
- Python
- Python環境搭建
- Python學習總結
- Python語法學習
- Python模塊學習
- MySQLdb
- scrapy
- Python的exception
- PythonNLP入門
- Go
- 工具組件
- Jenkins
- Jenkins認識
- Jenkins安裝配置
- Jenkins插件使用
- Jenkins項目常用配置
- Git
- Git使用說明
- NLP
- 入門級別
- 一些概念
- faiss介紹
- WMD介紹