(1)* - A list of partitions
一个RDD是由很多的分区构成的
(2)* - A function for computing each split/partitions
对一个RDD进行的转换其实就是对RDD里面的每个partition进行操作的
(3)* - A list of dependencies on other RDDs
RDD之间是有一个依赖关系的
(4)* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
可选项,如果RDD里面存的数据是key-value形式,则可以传递一个自定义的Partitioner进行重新分区,例如这里自定义的Partitioner是基于key进行分区,那则会将不同RDD里面的相同key的数据放到同一个partition里面
(5)* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
* an HDFS file)
可选项,数据本地性