搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

1回答

Pyspark-SQL Sum Integer to Date (带sql)

我试过这段代码，它试图得到今天的第二天，但由于date和int类型之间的差异，它不起作用，我想我正在寻找类似于python timedelta但在pyspark-sql中的东西 spark.sql(f"SELECT

浏览 9修改于2020-10-20得票数 0

回答已采纳

1回答

pyspark-sql:打印表达式的别名

在pyspark中，我有以下几点： import pyspark.sql.functions as Fprint(cc._jc.toString()) 我得到了： Column<b'1 AS `A`'> 1 AS `A` 有没有办法让我直接从cc打印"A“？看起来我不能很容易的提取别名。我还认为，在scala中的spark-sql中，如果我打印"cc“，它将只打印"A”

浏览 40修改于2019-03-07得票数 0

1回答

Pyspark 'for‘循环没有使用.filter()正确过滤pyspark-sql数据帧。

我正在尝试创建一个for循环，首先:过滤一个pyspark sql数据帧，然后将过滤后的数据帧转换为pandas，对其应用一个函数，并将结果添加到一个名为results的列表中。我的列表包含一个字符串序列(这将是dataframe中的某种id )；我希望for循环在每次迭代中从列表中获取一个字符串，并过滤dataframe中id为该字符串的所有行。示例代码： results = [] aux = df.filter("id='x'")

浏览 21修改于2020-12-24得票数 1

回答已采纳

1回答

在Pyspark-SQL和Pyspark中使用Delta格式查询表有什么不同？

我正在查询表，但我使用两种方式得到了不同的结果，我想了解一下原因。我使用Delta location创建了一个表。我想查询我存储在该位置的数据。我正在使用亚马逊S3。我创建了这样的表： spark.sql("CREATE TABLE bronze_client_trackingcampaigns.TRACKING_BOUNCES (ClientID INT, SendID INT, SubscriberKey STRING) USING DELTA LOCATION 's3://example/bronze/client/trackingcampaigns/TRACKIN

浏览 12修改于2019-06-10得票数 1

回答已采纳

1回答

编写涉及复杂类型的Spark-SQL查询

注意:我只能访问Spark-SQL，但不能访问 PySpark-SQL。谢谢

浏览 1提问于2020-05-31得票数 0

2回答

使用pyspark从平面记录创建段数组

|| 300 | [seg1, seg2, seg4] | ------------------------------- 在pyspark-sql

浏览 10修改于2020-09-02得票数 1

回答已采纳

1回答

如何在规模上检查短语是否为英语

我需要在PySpark-Sql中使用language属性来丰富我的dataframe，该属性基本上告诉每一行的论文标题的语言。我只需要过滤掉英文试卷。我有数以千万计的论文，所以我需要并行处理。

浏览 12提问于2019-04-13得票数 0

1回答

Pyspark使用.filter()过滤掉空列表

但是，如果我使用pyspark-sql，并且filter甚至允许lambda，我不确定这个语法是如何工作的。也许为了清楚起见，我有多个列，但想要在单个列上应用上面的过滤器，删除所有条目。

浏览 17修改于2019-04-09得票数 7

回答已采纳

1回答

通过集群提高SparkSQL查询性能

syntaxhint syntaxtipsscenarios任何帮助都是非常感谢的。谢谢

浏览 5提问于2020-06-05得票数 0

1回答

使用列值作为火花DataFrame函数的参数

一种方法是使用以下查询将我的pyspark-sql复制到该问题：SELECT * (SELECT DISTINCT *, posexplode

浏览 2修改于2022-09-15得票数 11

回答已采纳

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

如果有任何链接指向要从PySpark-SQL调用的示例Java代码，我们将不胜感激。

浏览 76修改于2020-06-20得票数 0

1回答

从远程mysql数据库(JDBC)的pySpark SQL写入中获取新行id

我正在使用pyspark-sql在使用JDBC的远程mysql数据库中创建行。

浏览 4提问于2018-09-05得票数 2

1回答

在pyspark sql的join中重复使用相同的数据框视图

然后，我将这3个视图连接在一起，形成一个最终的pyspark-sql视图。我发现，如果我使用我在前面代码中创建的daily_sku_t视图运行pyspark-sql，它会抛出一个非常长的错误，我已经提供了下面的第一行。

浏览 26提问于2021-05-21得票数 0

1回答

如何在SQL和熊猫中获得相同的percent_rank？

我正在学习pyspark，它使用HiveQL，并且发现有趣的是，百分比等级给出了pyspark-sql和pandas的两个不同的答案。如何在熊猫中获得与SQL相同的结果？

浏览 5修改于2020-07-24得票数 8