官术网_书友最值得收藏!

Getting ready

As in the previous sections, let's make use of the flights dataset and create an RDD and a DataFrame against this dataset:

## Create flights RDD
flights = sc.textFile('/databricks-datasets/flights/departuredelays.csv')\
.map(lambda line: line.split(","))\
.zipWithIndex()\
.filter(lambda (row, idx): idx > 0)\
.map(lambda (row, idx): row)

# Create flightsDF DataFrame
flightsDF = spark.read\
.options(header='true', inferSchema='true')
.csv('~/data/flights/departuredelays.csv')
flightsDF.createOrReplaceTempView("flightsDF")
主站蜘蛛池模板: 黄龙县| 南部县| 浦江县| 巴青县| 得荣县| 虹口区| 鄂托克旗| 图们市| 乌审旗| 宾川县| 会宁县| 罗城| 张家界市| 松桃| 太仓市| 乐山市| 喀喇| 衡阳市| 台北县| 渑池县| 修文县| 乌苏市| 沙河市| 汾阳市| 多伦县| 高平市| 丰镇市| 江华| 绵竹市| 蕉岭县| 昭通市| 磐安县| 新巴尔虎右旗| 贡嘎县| 海淀区| 冀州市| 长春市| 莎车县| 苗栗县| 竹山县| 慈溪市|