我正在建立一个作为码头集装箱形象的开发环境。这将使我和我的同事们能够使用它作为一个解释器环境快速地启动和运行。我们的工作流程是在本地开发代码,并在连接到各种数据源的Azure Databricks集群上执行代码。为此,我正在研究如何使用数据库连接。
我遇到了databricks的配置--连接显然仅仅是一个交互过程。这导致每次运行Docker容器映像时都必须运行databricks-connect configure并提供各种配置值,这可能会造成麻烦。
是否有一种以非交互方式配置databricks-connect的方法?,这将允许我在开发环境中包含配置过程,Dockerfile和开发人员只需要在(重新)构建他们的本地开发环境时提供配置值。
发布于 2021-12-24 21:57:50
是的-这是可能的,有不同的方法:
echo "y
$databricks_host
$databricks_token
$cluster_id
$org_id
15001" | databricks-connect configure~/.databricks-connect并进行重用。但实际上,您可能根本不需要配置-- Databricks connect可以从环境变量(如DATABRICKS_ADDRESS)或Spark (如spark.databricks.service.address)获取信息,只需参考正式文件即可。
发布于 2022-10-23 18:39:36
以上并不适用于我,然而,这的确是:
with open(os.path.expanduser("~/.databricks-connect"), "w") as f:
json.dump(db_connect_config, f)
spark = SparkSession.builder.getOrCreate()其中db_connect_config是一个具有凭据的字典。
https://stackoverflow.com/questions/70472119
复制相似问题