文章/答案/技术大牛

发布

社区首页 >问答首页 >SIC到FamaFrench行业分类的映射

问SIC到FamaFrench行业分类的映射
EN

Stack Overflow用户

提问于 2017-08-09 08:25:51

回答 1查看 563关注 0票数 0

我正在做一个项目，在这个项目中，我必须将具有SIC行业分类的公司映射到相应的法马-法国行业分类。我发现Ian Gow优雅地创建了脚本来实现这一点。该脚本可从以下url获得：https://iangow.wordpress.com/2011/05/17/getting-fama-french-industry-data-into-r/

然而，在脚本或数据集中有一个小故障，并且由于某些原因，它不能与“Siccodes30.txt”一起工作。更具体地说，它不会为“Siccodes30.txt”中与“6726-6726 Unit inv trusts，closed end”相关的行生成正确的结果(映射)。我一直在试图找出问题的根源，但我没有成功。

在下面的帖子中，我已经包含了原始脚本(有一些空间可以使其更有效)，并且我在末尾添加了几行代码，以使其与在线示例一起工作。

原稿(我删除了评论以缩短帖子)。同样，这不是我的脚本(原始脚本在https://iangow.wordpress.com/2011/05/17/getting-fama-french-industry-data-into-r/中

url4FF <- paste("http://mba.tuck.dartmouth.edu",
             "pages/faculty/ken.french/ftp",
             "Industry_Definitions.zip", sep="/")
f <- tempfile()
download.file(url4FF, f)
fileList <- unzip(f,list=TRUE)
trim <- function(string) {
ifelse(grepl("^\\s*$", string, perl=TRUE),"",
       gsub("^\\s*(.*?)\\s*$","\\1",string,perl=TRUE))
}
extract_ff_ind_data <- function (file) {
ff_ind <- as.vector(read.delim(unzip(f, files=file), header=FALSE, 
                           stringsAsFactors=FALSE))
ind_num <- trim(substr(ff_ind[,1],1,10))
for (i in 2:length(ind_num)) {
    if (ind_num[i]=="") ind_num[i] <- ind_num[i-1]
}
sic_detail <- trim(substr(ff_ind[,1],11,100))
is.desc <- grepl("^\\D",sic_detail,perl=TRUE)
regex.ind <- "^(\\d+)\\s+(\\w+).*$"
ind_num <- gsub(regex.ind,"\\1",ind_num,perl=TRUE)
ind_abbrev <- gsub(regex.ind,"\\2",ind_num[is.desc],perl=TRUE)
ind_list <- data.frame(ind_num=ind_num[is.desc],ind_abbrev,
                       ind_desc=sic_detail[is.desc])

regex.sic <- "^(\\d+)-(\\d+)\\s*(.*)$"
ind_num <- ind_num[!is.desc]
sic_detail <- sic_detail[!is.desc]
sic_low  <- as.integer(gsub(regex.sic,"\\1",sic_detail,perl=TRUE))
sic_high <- as.integer(gsub(regex.sic,"\\2",sic_detail,perl=TRUE))
sic_desc <- gsub(regex.sic,"\\3",sic_detail,perl=TRUE)
sic_list <- data.frame(ind_num, sic_low, sic_high, sic_desc)

return(merge(ind_list,sic_list,by="ind_num",all=TRUE))
}

FFID_30 <- extract_ff_ind_data("Siccodes30.txt")

我添加了以下几行代码来测试脚本：

library(gsheet)
url <-"https://docs.google.com/spreadsheets/d/1QRv8YmJv0pdhIVmkXMQC7GQuvXV21Kyjl9pVZsSPEAk/gid=1758600626"
companiesSIC <- read.csv(text=gsheet2text(url, format='csv'), stringsAsFactors=FALSE)
names(companiesSIC)

library(sqldf)
companiesFFID_30 <- sqldf("SELECT a.gvkey, a.SIC, b.ind_desc AS FF30, 
    b.ind_num as FFIndNUm30
FROM companiesSIC AS a
  LEFT JOIN FFID_30 AS b
  ON a.sic BETWEEN b.sic_low AND b.sic_high")
companiesFFID_30

行141和142上的结果是错误的。提供一个字符串，而不是行业编号。

谢谢

PS正如我所说的，有空间让脚本变得更短(例如，你不需要创建一个单独的函数来删除空格，你可以使用trimws)，但为了归功于原始作者，我保留了脚本的原始形式。但是，如果有人可以解决这个问题，也应该尝试更新脚本的其余部分。

regex

sqldf

回答 1

Stack Overflow用户

发布于 2017-09-03 23:36:55

脚本没有任何问题。问题出在txt文件的两行(141和142)的格式中。

我用文本编辑器打开了文本文件，删除并重新键入了这两行内容。当我重新运行R脚本时，这个问题就解决了。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45579848

复制

相似问题

问SIC到FamaFrench行业分类的映射
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SIC到FamaFrench行业分类的映射EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SIC到FamaFrench行业分类的映射
EN