我在python中创建了一个文本内容分析器,它分析来自文件和输出的输入。
以下是代码:
import re
import string
import os
import sys
def function(s):
return re.sub("[%s]" % re.escape(string.punctuation), '', s.lower())
def main():
words_list = []
with open(sys.argv[1], "r") as f:
for line in f:
words_list.extend(line.split())
print "Total word count:", len(words_list)
new_words = map(function, words_list)
print "Unique words:", len(set(new_words))
nb_sentence = 0
for word in words_list:
if re.search(r'[.!?][' "'" '"]*', word):
nb_sentence += 1
print "Sentences:", nb_sentence
if __name__ == "__main__":
main()我现在试着计算单词的平均句子长度,找出经常使用的短语(三个或三个以上的单词使用超过三次),并按频率下降的顺序列出所用单词的列表。有人能帮忙吗?
发布于 2015-11-28 22:09:30
以下是一些可能会有所帮助的方法:
or more单词的常见短语比较困难,但如果您解决了前面的所有问题,答案可能会变得更加明显。https://stackoverflow.com/questions/33976069
复制相似问题