scancn ◎ txt文件合并为csvtxt2csv ◎ csv变为txtcsv2txt 3、数据类型、格式转变: ◎ 正则匹配match_pattern ◎ tf2doc高级rep ◎ m2doc milk milk milk milk milk milk tea tea tea tea tea tea tea cola cola cola cola cola cola cola cola" . 3、m2doc m2doc (m, checks = FALSE) m是数值矩阵,案例: s <- sample(1:5, 20, replace = TRUE) m <- matrix(s, nrow = 5) 2 [4,] 2 2 2 2 [5,] 1 3 3 2 colnames(m) <- c("r", "text", "mining", "data") m2doc
采用这类多模态模型提供文档智能的另一个好处,就是在文档布局中可以引入文本信息,今年的一个代表工作 M2Doc 【参考 23】,在基于视觉的 Encoder-Decoder 架构上融合了 BERT,可以更好地确定文字和段落的语义边界