cherry pick fix data structure for nebula datasource (#33)

Nicole00 · web-flow · commit 0dc354c525d4 · 2022-01-06T10:50:39.000+08:00
diff --git a/nebula-algorithm/src/main/scala/com/vesoft/nebula/algorithm/config/Configs.scala b/nebula-algorithm/src/main/scala/com/vesoft/nebula/algorithm/config/Configs.scala
@@ -197,6 +197,8 @@ case class NebulaReadConfigEntry(address: String = "",
                                  space: String = "",
                                  labels: List[String] = List(),
                                  weightCols: List[String] = List()) {
+  assert(weightCols.isEmpty || labels.size == weightCols.size,
+         "weightCols must be empty or has the same amount values with labels")
   override def toString: String = {
     s"NebulaReadConfigEntry: " +
       s"{address: $address, space: $space, labels: ${labels.mkString(",")}, " +
diff --git a/nebula-algorithm/src/main/scala/com/vesoft/nebula/algorithm/reader/DataReader.scala b/nebula-algorithm/src/main/scala/com/vesoft/nebula/algorithm/reader/DataReader.scala
@@ -48,11 +48,11 @@ class NebulaReader(spark: SparkSession, configs: Configs, partitionNum: String)
         .withReturnCols(returnCols.toList)
         .withPartitionNum(partition)
         .build()
-      if (dataset == null) {
-        dataset = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()
-      } else {
-        dataset = dataset.union(spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF())
+      var df = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()
+      if (weights.nonEmpty) {
+        df = df.select("_srcId", "_dstId", weights(i))
       }
+      dataset = if (dataset == null) df else dataset.union(df)
     }
     dataset
   }

Original file line number	Diff line number	Diff line change
`@@ -48,11 +48,11 @@ class NebulaReader(spark: SparkSession, configs: Configs, partitionNum: String)`
`48`	`48`	`.withReturnCols(returnCols.toList)`
`49`	`49`	`.withPartitionNum(partition)`
`50`	`50`	`.build()`
`51`		`- if (dataset == null) {`
`52`		`- dataset = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()`
`53`		`- } else {`
`54`		`- dataset = dataset.union(spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF())`
	`51`	`+ var df = spark.read.nebula(config, nebulaReadEdgeConfig).loadEdgesToDF()`
	`52`	`+ if (weights.nonEmpty) {`
	`53`	`+ df = df.select("_srcId", "_dstId", weights(i))`
`55`	`54`	`}`
	`55`	`+ dataset = if (dataset == null) df else dataset.union(df)`
`56`	`56`	`}`
`57`	`57`	`dataset`
`58`	`58`	`}`