我使用R进行文本分析。我使用“readtext”函数从pdf中提取文本。然而,正如你所能想象的,这是相当混乱的。为了不同的目的,我用“gsub”替换文本。其一般目标是使用一种类型的分隔符“%”将记录拆分为行,使用另一种分隔符“@”分隔列。我完成了第一件事,但对如何完成后一件事感到不知所措。在dataframe中找到的数据示例如下:
895“流动个案-混合发展计划@n@公布:六月六日,1994@作者: Baker A,Honigfeld S,Lieberman R,Tucker AM,Weiner JP@Country: United States @Journal:Project final