我在一家拥有大量Word和Excel文件的公司工作,这些文件在他们的文件服务器深处逐渐消失,可能就像大多数其他公司一样。问题是,这些文件中的每一个都包含一些信息,这些信息至少会让人对过去的性能有一些宝贵的了解。公司没有检索这些文件的“官方”方法,更别提审查它们了。
所以,我正在为公司准备一份报告,基本上说,“你把你的文件当作信息墓地,你的文件夹就像文件棺材!”正如你所能想象的那样,我正试图找到一种更外交的方式来这么说!
例如,考虑一家公司与其客户之间的传统合同文件,用Word写成。它可能包含一堆文字,也许是一些图像。简而言之,它主要是一本小册子,讲述了公司有多伟大,并说出了与前一份合同相同的话,但区别在于客户的细节和合同价值。理想情况下,我们可以查询这样的文档,这样我们就可以提取这样的值,并在我们的总体财务报告中使用它们。
现在,您可能会想,“只需使用一个模板文件,并使用不同的细节填充它!将您的键及其值存储在数据库中!”作为软件工程师,我们直觉地知道如何提出这样的建议。对办公室工作人员来说,不直观的是如何认识到他们正在永久地将这些珍贵的信息存档,而且还有其他的选择。
发布于 2018-10-31 20:40:10
将文档标准化(如合同),使所包含的信息成为机器可读的,需要付出一定的努力。你或你的公司不是免费得到的。这本身并不是目的,它应该是达到目的的手段。所以,在你要求实现这一点的方法之前,你最好问问你的管理层,他们是否认为这样做是值得的。
说到这一点,我知道有一种方法可以达到你的建议,但这可能不是你所期望的答案:让你的公司购买并推出像SAP这样的全公司的ERP系统。这应该为将最“重要”的信息存储在结构化数据库中提供基础设施,并迫使公司中的每一个人在那里保存合同、订单、发票、支付信息或其他与业务相关的数据。
不管您是否喜欢这样的解决方案,ERP系统通常都允许从数据库中自动创建商业智能文档(如财务报告),当业务数据完全存储在非结构化的Word文件中时,这些文档很难被自动化。
发布于 2018-10-31 21:33:10
对于非结构化文档,提取键/值对是一个非常困难的问题。但是,有很多工具可以在内容上构建索引。我建议谷歌的“开源文档管理词汇excel”,这应该会给你一个前进的道路。
发布于 2018-10-31 21:52:11
您感兴趣的整体字段称为“文档管理”。在具有良好文档管理实践的环境中,文档被视为一流实体。文档有生命周期、过程和调控器。
文档具有与它们相关联的metadata。文件系统元数据(如文件名、创建时间、文件类型等)是传统的元数据。在Microsoft环境中,通常以文档属性的形式创建其他元数据。
文档管理过程通常是在文档管理系统的背景下进行的,包括手动或自动化。
文档的治理实践是组织管理文档中数据的生命周期所需的策略和过程。如果您的组织需要符合Sarbanes或其他政府授权的流程,您可能熟悉治理。
https://softwareengineering.stackexchange.com/questions/380825
复制相似问题