我尝试按照here的说明来设置databricks-connect with IntelliJ。我的理解是,我可以从IDE运行代码,它将在databricks集群上运行。
我从miniconda环境中添加了jar目录,并将其移到File -> Project Structure...中所有maven依赖项的上方
然而,我认为我做错了什么。当我试图运行我的模块时,我得到了以下错误:
21/07/17 22:44:24 ERROR SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
at org.apache.spark.memory.UnifiedMemoryManager$.getMaxMemory(UnifiedMemoryManager.scala:221)
at org.apache.spark.memory.UnifiedMemoryManager$.apply(UnifiedMemoryManager.scala:201)
at org.apache.spark.SparkEnv$.create(SparkEnv.scala:413)
at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:262)
at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:291)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:495)
at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2834)
at org.apache.spark.sql.SparkSession$Builder.$anonfun$getOrCreate$2(SparkSession.scala:1016)
at scala.Option.getOrElse(Option.scala:189)
at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:1010)
at com.*.sitecomStreaming.sitecomStreaming$.main(sitecomStreaming.scala:184)
at com.*.sitecomStreaming.sitecomStreaming.main(sitecomStreaming.scala)259 gb的系统内存让我认为它正试图在我的笔记本电脑上本地运行,而不是dbx集群?我不确定这是否正确,以及我可以做些什么来让它正常启动和运行。
如有任何帮助,我们不胜感激!
发布于 2021-07-18 15:04:39
databricks-connect中的驱动程序始终在本地运行-只有执行器在云中运行。此外,这个报告的内存是以字节为单位的,因此259522560大约为256MB-您可以使用它报告的选项来增加它。
附注:但如果你使用的是结构化流媒体,那么是的--它是known limitation of databricks-connect。
https://stackoverflow.com/questions/68425894
复制相似问题