请有人指导我如何提取.docx文件并使用ETL(提取-转换-加载)或ELT(提取-加载-转换)工具将其加载到数据库中。
假设.docx文件主要包含非结构化数据,那么它不是我应该使用的ELT工具而不是ETL吗
到目前为止,我发现的ETL和ELT工具不支持MS Word组件。还有什么方法可以提取.docx文件中的内容并将其存储到数据库中呢?
我的要求是:
.docx文件中的数据,data lake上,以便我可以执行data analysis,并根据这些结果做出生产性决策。这就像电子商务公司如何将客户评论转化为有意义的数据,这样他们就可以做出决定来提升自己的销售额。在我的例子中,我需要分析Word文件。
我之所以这么问,是因为我搜索了这么多ETL和ELT工具,但是找不到任何支持Word文件的东西。也许是因为我一直在寻找合适的工具或正确的方法?
如果有人知道办法,请指导我完成这个过程。我该开始找什么?一种工具,还是一种编码整件事的方法?
我已经找了好几个星期的答案了,但没有找到有帮助的答案。看到所有支持其他组件的工具,如社交媒体、MongoDB或除Word文件之外的任何其他组件,都开始让人感到沮丧。
发布于 2021-09-10 14:40:37
你必须分两步完成:
将xml
txt或使用SSIS导入。(Azure Data (如果您在云中)https://stackoverflow.com/questions/69133675
复制相似问题