我正在寻找一个相当多的pdf文件测试我的文本处理程序。试图寻找一个开放的网站,以获得像数千个pdfs,但未能找到任何东西。我真的不知道这是不是合适的地方问(可能不是),但也许有人给我一个很好的提示。
提前谢谢。
发布于 2017-07-25 18:14:45
具有~1,000 pdfs的GitHub回购程序是这里。
另一个GitHub回购有一个包括边缘箱在内的pdf例子的语料库是这里。
https://datascience.stackexchange.com/questions/21679
相似问题