文章/答案/技术大牛

发布

社区首页 >问答首页 >将数据从Azure数据湖加载到DSVM上的木星笔记本

问将数据从Azure数据湖加载到DSVM上的木星笔记本
EN

Stack Overflow用户

提问于 2018-05-17 20:07:01

回答 2查看 1.3K关注 0票数 1

我正在尝试将数据从Azure数据湖加载到我的数据科学VM中的木星笔记本。请注意，我是数据池存储的所有者，具有读取、写入和执行权限。带有木星的数据科学VM运行在相同的订阅下，属于同一资源组。我正在尝试以下两种方法，两者都面临一个问题。他们是基于这的博客文章。

PySpark

下面是使用PySpark加载数据的代码：

hvacText = sc.textFile("adl://name.azuredatalakestore.net/file_to_read.csv")
hvacText.count()

引发以下异常：

Py4JJavaError: An error occurred while calling o52.text.
: java.io.IOException: No FileSystem for scheme: adl
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
at org.apache.spark.sql.execution.datasources.DataSource$.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:616)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:350)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:350)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.immutable.List.foreach(List.scala:381)
at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
at scala.collection.immutable.List.flatMap(List.scala:344)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:349)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
at org.apache.spark.sql.DataFrameReader.text(DataFrameReader.scala:623)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
at py4j.Gateway.invoke(Gateway.java:280)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:214)
at java.lang.Thread.run(Thread.java:748)

Python：

下面是使用SDK访问数据的代码：

from azure.datalake.store import core, lib, multithread    
token = lib.auth()
# output: To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code XXXX to authenticate.
# here I open the link and enter the code successfully
adl = core.AzureDLFileSystem(token, store_name='store_name')
adl.ls('/')

发生以下例外情况：

DatalakeRESTException: Data-lake REST exception: LISTSTATUS, .

我更感兴趣的是修复火花解决方案，但任何帮助将不胜感激。

azure-data-lake

azure-dsvm

python

apache-spark

jupyter-notebook

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-05-25 23:31:08

您需要做两件事才能在DSVM上使用ADLS连接器：

添加两个jars，hadoop-azure-datalake-3.0.0- Add 3.jar和azure-数据湖存储-SDK-2.1.5.jar，通过编辑/dsvm/tools/spark/current/conf/spark-defaults.conf并向spark.jars添加两个jars。我们不会在默认情况下加载它们，这样用户就可以获得更快的启动时间。
创建core-site.xml:也在conf目录中，将core-site.xml.template复制到core-site.xml。只保留ADLS部分并输入您的值。

您还需要在当前映像中修复损坏的符号链接: in /dsvm/tools/image/ current /jars，有一些符号链接用于天青数据存储-SDK-2.0.11.jar和hadoop-azure-datalake-3.0.0- also 2.jar。您应该删除这些链接，并将符号链接添加到/opt/adls-jars/hadoop-azure-datalake-3.0.0-alpha3.jar和/opt/adls-jars/azure-data-lake-store-sdk-2.1.5.jar.中。这是我们的错误。

票数 3

Stack Overflow用户

发布于 2018-05-19 02:16:50

您是否编辑或创建了$SPARK_HOME/conf中的core-site.xml (必须是/dsvm/tools/spark/current/conf)，并添加了配置属性，如您与ADLS访问令牌和adl模式详细信息链接的参考文章中所指定的那样？(为了方便而贴在这里)。

<configuration>
  <property>
        <name>dfs.adls.oauth2.access.token.provider.type</name>
        <value>ClientCredential</value>
  </property>

  <property>
      <name>dfs.adls.oauth2.refresh.url</name>
      <value>YOUR TOKEN ENDPOINT</value>
  </property>
  <property>
      <name>dfs.adls.oauth2.client.id</name>
      <value>YOUR CLIENT ID</value>
  </property>
  <property>
      <name>dfs.adls.oauth2.credential</name>
      <value>YOUR CLIENT SECRET</value>
  </property>
  <property>
      <name>fs.adl.impl</name>
      <value>org.apache.hadoop.fs.adl.AdlFileSystem</value>
  </property>
  <property>
      <name>fs.AbstractFileSystem.adl.impl</name>
      <value>org.apache.hadoop.fs.adl.Adl</value>
  </property>  
</configuration>

ADLS连接JAR文件已经预置到DSVM中。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50399751

复制

相似问题

问将数据从Azure数据湖加载到DSVM上的木星笔记本
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将数据从Azure数据湖加载到DSVM上的木星笔记本EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将数据从Azure数据湖加载到DSVM上的木星笔记本
EN