我在gen1中用python上传了azure data lake中的文件。这些文件存在于azure数据湖中,我需要对这些文件应用弹性搜索(这些文件可以是.pdf、.csv、.xlsx、.doc)。使用python django。
发布于 2019-10-22 14:46:12
此article通过使用第三方工具Dremio将ADLS和Elasticsearch结合起来,帮助您索引和查询大量结构化数据。
关于Dremio: Dremio为您的数据提供了一个自助式语义层和治理。Dremio的语义层是Data Graph中的一个集成的、可搜索的目录,它为您的所有元数据编制了索引,使业务用户能够轻松地理解数据湖中的数据。由用户创建的任何内容-空间、目录和虚拟数据集-构成语义层,所有这些语义层都是可索引和可搜索的。您的数据源、虚拟数据集和所有查询之间的关系也在数据图中维护,从而创建数据谱系,允许您管理和维护数据。
Azure Data Lake Store是一个高度可扩展且安全的数据存储和分析服务,可以轻松处理大数据问题。它为数据管理和治理提供了各种功能和解决方案。
Elasticsearch是一个强大的搜索和分析引擎。由于它的横向扩展架构、JSON数据模型和文本搜索功能,它非常流行。此外,在Elasticsearch的帮助下,您可以索引和查询大量结构化数据,使用方便的RESTful应用编程接口,等等。
希望这能有所帮助。
https://stackoverflow.com/questions/58430934
复制相似问题