文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在StanfordPOSTagger中加速"POS“？

问如何在StanfordPOSTagger中加速"POS“？
EN

Stack Overflow用户

提问于 2018-06-05 15:32:47

回答 1查看 272关注 0票数 0

我不想接受推文的短语，代码就在后面。问题是，它一次只处理300条tweet，花费5分钟，如何加速？

顺便说一下，一些代码是根据文本blob进行编辑的。

我使用gate-EN-twitter(https://gate.ac.uk/wiki/twitter-postagger.html)的数据集和斯坦福POS标记器的NLTK接口来标记tweet

from nltk.tag import StanfordPOSTagger
from nltk.tokenize import word_tokenize
import time,nltk
start_time = time.time()

CFG = {
        ('NNP', 'NNP'): 'NNP',
        ('NN', 'NN'): 'NNI',
        ('NNI', 'NN'): 'NNI',
        ('JJ', 'JJ'): 'JJ',
        ('JJ', 'NN'): 'NNI',
        }

st = StanfordPOSTagger('/models/gate-EN-twitter.model','/twitie_tagger/twitie_tag.jar', encoding='utf-8')


def _normalize_tags(chunk):
    '''Normalize the corpus tags.
    ("NN", "NN-PL", "NNS") -> "NN"
    '''
    ret = []
    for word, tag in chunk:
        if tag == 'NP-TL' or tag == 'NP':
            ret.append((word, 'NNP'))
            continue
        if tag.endswith('-TL'):
            ret.append((word, tag[:-3]))
            continue
        if tag.endswith('S'):
            ret.append((word, tag[:-1]))
            continue
        ret.append((word, tag))
    return ret



def noun_phrase_count(text):
    matches1=[]
    print('len(text)',len(text))
    for i in range(len(text)//1000):
        tokenized_text = word_tokenize(text[i*1000:i*10000+1000])
        classified_text = st.tag(tokenized_text)
        tags = _normalize_tags(classified_text)


        merge = True
        while merge:
            merge = False
            for x in range(0, len(tags) - 1):
                t1 = tags[x]
                t2 = tags[x + 1]
                key = t1[1], t2[1]
                value = CFG.get(key, '')
                if value:
                    merge = True
                    tags.pop(x)
                    tags.pop(x)
                    match = '%s %s' % (t1[0], t2[0])
                    pos = value
                    tags.insert(x, (match, pos))
                    break

        matches = [t[0] for t in tags if t[1] in ['NNP', 'NNI']] 
        matches1+=matches   
        print("--- %s seconds ---" % (time.time() - start_time))
    fdist = nltk.FreqDist(matches1)
    return [(tag,num) for (tag, num) in fdist.most_common()]

noun_phrase_count(tweets)

twitter

nltk

stanford-nlp

pos-tagger

回答 1

Stack Overflow用户

发布于 2018-06-05 22:09:15

看起来像是Stanford POS tagger with GATE twitter model is slow的复制品，所以你可以在那里找到更多信息。

此外，如果有任何机会两次(或更多)偶然发现相同的输入( tweet )，您可以考虑以tweet (普通str)为键并标记为value的字典，以便当您遇到tweet时，您首先检查它是否已经在您的dict中。如果不是，则标记它并将其放在那里(如果这种方法可行，为什么不对字典进行pickle/unpickle，这样代码的调试/后续运行也会更快)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50694531

复制

相似问题

问如何在StanfordPOSTagger中加速"POS“？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在StanfordPOSTagger中加速"POS“？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在StanfordPOSTagger中加速"POS“？
EN