我注意到一个问题,在R中的pdftools包在我的Windows 7机器上本地运行与我通过ssh在共享Ubuntu服务器上运行它时,执行起来似乎不同。
我的代码:
download.file("http://www.nber.org/lbid/docs/LinkCO95Guide.pdf",
"1995codebook.pdf",
mode = "wb",
method = "libcurl")
codebook <- pdf_text("1995codebook.pdf")在我的本地windows 7机器上,对象代码本显示为“大字符(258个元素,710.2 Kb)",而在Ubuntu服务器上则显示为”大字符(258个元素,701.9 Kb)“。
正如您可能想象的那样,这对我在下游造成了问题,在我的本地机器上工作的代码在Ubuntu服务器上没有产生相同的结果。查看代码本中包含的文本,我立即注意到的第一个区别是,在Windows上生成的版本有"\r\n“,而在Ubuntu上生成的版本只有"\n”(我依赖下游的"\r\n“)。
为什么那个角色系列会有所不同?这可能与编码有关吗?任何帮助都会感谢是什么造成的,以及我如何在这两台机器上得到相同的结果。
最后要提到的一点是:为了安装pdftools,我不得不在Ubuntu服务器上的主目录(没有sudo访问权限)上安装poppler库:
apt-get source poppler
cd poppler-0.24.5
./configure --prefix=$HOME/myapps
make
make install
export PKG_CONFIG_PATH=$HOME/myapps/lib/pkgconfig在这样做之后,install.packages("pdftools")似乎运行正常。和pdftools没有问题加载。所以如果安装不好,我不知道哪里出了问题。
发布于 2017-10-25 02:26:15
有几件事:
dos2unix,您可以通过apt-get install dos2unix获得它apt-get install libpoppler-cpp-dev安装库即可但是:大多数正常的程序(包括R)都相同地对待\r\n和n,所以导入的数据应该是相同的。如果没有,请使用dos2unix或同等工具进行必要的转换。从长远来看,您希望您的代码不受关注。
https://stackoverflow.com/questions/46922193
复制相似问题