Преобразование SQL-запроса с агрегатной функцией в выражение реляционной алгебры в Apache Calcite — совпадение для сигнатуры функции не найдено

Я пытаюсь преобразовать запрос SQL в выражение реляционной алгебры, используя Apache Calcite SqlToRelConverter.

Он отлично работает для этого запроса (кавычки для обеспечения нижнего регистра):

queryToRelationalAlgebraRoot("SELECT \"country\" FROM \"mytable\"")

Но в этом запросе он терпит неудачу:

queryToRelationalAlgebraRoot("SELECT \"country\", SUM(\"salary\") FROM \"mytable\" GROUP BY \"country\"")

с этой ошибкой:

org.apache.calcite.sql.validate.SqlValidatorException: No match found for function signature SUM(<NUMERIC>)

Похоже, что SQL-валидатор каким-то образом не имеет зарегистрированных функций агрегирования, таких как сумма или счет.

case class Income(id: Int, salary: Double, country: String)

class SparkDataFrameTable(df: DataFrame) extends AbstractTable {

  def getRowType(typeFactory: RelDataTypeFactory): RelDataType = {
    val typeList = df.schema.fields.map {
      field => field.dataType match {
        case t: StringType => typeFactory.createSqlType(SqlTypeName.VARCHAR)
        case t: IntegerType => typeFactory.createSqlType(SqlTypeName.INTEGER)
        case t: DoubleType => typeFactory.createSqlType(SqlTypeName.DOUBLE)
      }
    }.toList.asJava
    val fieldNameList = df.schema.fieldNames.toList.asJava
    typeFactory.createStructType(typeList, fieldNameList)
  }

}

object RelationalAlgebra {

  def queryToRelationalAlgebraRoot(query: String): RelRoot = {
    val sqlParser = SqlParser.create(query)
    val sqlParseTree = sqlParser.parseQuery()

    val frameworkConfig = Frameworks.newConfigBuilder().build()
    val planner = new PlannerImpl(frameworkConfig)

    val rootSchema = CalciteSchema.createRootSchema(true, true)

    // some sample data for testing
    val inc1 = new Income(1, 100000, "USA")
    val inc2 = new Income(2, 110000, "USA")
    val inc3 = new Income(3, 80000, "Canada")
    val spark = SparkSession.builder().master("local").getOrCreate()
    import spark.implicits._
    val df = Seq(inc1, inc2, inc3).toDF()
    rootSchema.add("mytable", new SparkDataFrameTable(df))

    val defaultSchema = List[String]().asJava
    val calciteConnectionConfigProperties = new Properties()
    val calciteConnectionConfigImpl = new CalciteConnectionConfigImpl(calciteConnectionConfigProperties)
    val sqlTypeFactoryImpl = new SqlTypeFactoryImpl(RelDataTypeSystem.DEFAULT)
    val calciteCatelogReader = new CalciteCatalogReader(rootSchema, defaultSchema, sqlTypeFactoryImpl, calciteConnectionConfigImpl)
    val defaultValidator = SqlValidatorUtil.newValidator(new SqlStdOperatorTable(), calciteCatelogReader, sqlTypeFactoryImpl, SqlConformanceEnum.LENIENT)

    val relExpressionOptimizationCluster = RelOptCluster.create(new VolcanoPlanner(), new RexBuilder(sqlTypeFactoryImpl))

    val sqlToRelConfig = SqlToRelConverter.configBuilder().build()

    val sqlToRelConverter = new SqlToRelConverter(planner, defaultValidator, calciteCatelogReader, relExpressionOptimizationCluster, StandardConvertletTable.INSTANCE, sqlToRelConfig)

    sqlToRelConverter.convertQuery(sqlParseTree, true, true)
  }

}

person tuzhucheng    schedule 27.03.2019    source источник


Ответы (2)


Проблема с кодом в том, что new SqlStdOperatorTable() создает валидатор, который не инициализирован. Правильный способ использования SqlStdOperatorTable — использовать SqlStdOperatorTable.instance().

Я нашел решение, отправив электронное письмо в список рассылки [email protected]. Я хотел бы поблагодарить Южао Чена за то, что он изучил мой вопрос и указал на проблему с моим кодом.

person tuzhucheng    schedule 27.03.2019

Я не знаком с API, но ваш SQL нуждается в группировке по странам. И если инструмент должен взять этот вывод и использовать его, он, вероятно, потребует, чтобы вы также назвали столбец псевдонимом.

person Saad Ahmad    schedule 27.03.2019
comment
Ты прав! Я сделал ошибку копирования и вставки. Обновлю вопрос, так как я получаю ту же ошибку с GROUP BY. - person tuzhucheng; 27.03.2019
comment
И сумма имени (сакары) - person Saad Ahmad; 27.03.2019
comment
Псевдоним не нужен - person tuzhucheng; 27.03.2019
comment
@tuzhucheng & SaadAhmad Стандартный и типичный SQL позволяет проводить агрегацию без явного группирования. (Означает группировку по всем столбцам.) (Также по умолчанию выбираются псевдонимы столбцов.) Я не знаю, работает ли этот SQL. - person philipxy; 27.03.2019
comment
Это стандартный SQL? Поскольку и Oracle, и sqlserver требуют группировки. Какая БД не требует группировки в этом случае? Конечно было бы неплохо - person Saad Ahmad; 27.03.2019