文章/答案/技术大牛

发布

社区首页 >问答首页 >熊猫根据过滤过的物品放行，我的解决方案-不满意

问熊猫根据过滤过的物品放行，我的解决方案-不满意
EN

Stack Overflow用户

提问于 2016-05-17 19:27:48

回答 1查看 97关注 0票数 1

我正在清理一个列表域名。

我想删除某些“符合”标准的行。我已经成功地确定了第一个标准，第二个标准将很容易做到。

但是，我不能删除行。我已经尝试过几种解决方案，但最好的解决办法如下。

from wordsegment import segment
import pandas as pd

def assignname():
    dfr = pd.read_csv('data.net.date.csv')

    for domainwtld in dfr.domain:
        dprice = dfr.price
        domainwotld = domainwtld.replace(".net", "")
        seperate = wordsegment.segment(domainwotld)
        dlnt = (min(seperate, key=len))
        slnt = len(dlnt)
        if slnt <= 1:
            baddomains = domainwtld
            a = dfr.loc[dfr['domain'] < (baddomains)]
            print (a)

当我运行这段代码时，我收到一个输出，在删除“baddomain”中的第一个项后，在"dfr“中打印整个项。它会这样做，直到循环完成。

我如何能够过滤“原始”的csv文件的基础上？

python

pandas

text-analysis

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-17 20:31:29

from wordsegment import segment
import pandas as pd

url = 'http://download1474.mediafire.com/3ndc8vevwtng/sa4ifz8rixe7m8u/data.net.date+%285%29.csv'
dfr = pd.read_csv(url)
dfr['domain'] = dfr.domain.str.replace(".net", "")
dfr['words'] = df.domain.apply(segment)
good_domains = dfr[dfr.words.apply(lambda words: len(min(words, key=len))) > 1]
bad_domains = dfr[~dfr.domain.isin(good_domains.domain)]

>>> bad_domains
        domain  price           words
2        keeng    700       [keen, g]
14       ymall    777       [y, mall]
22       idisc    850       [i, disc]
26      borsen    877      [borse, n]
38    cellacom    895  [cell, a, com]
51     iwealth    999     [i, wealth]
96     iplayer   1500     [i, player]
116  mcommerce   2000   [m, commerce]
118      apico   2052       [a, pico]
134     epharm   2500      [e, pharm]
139     ionica   2579      [ionic, a]
153    kasiino   2999   [kasi, in, o]
155    alpadia   3000   [al, padi, a]
158   similans   3152    [similan, s]
163    ifuture   3499     [i, future]

>>> bad_domains.domain.tolist()
['keeng',
 'ymall',
 'idisc',
 'borsen',
 'cellacom',
 'iwealth',
 'iplayer',
 'mcommerce',
 'apico',
 'epharm',
 'ionica',
 'kasiino',
 'alpadia',
 'similans',
 'ifuture']

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37284720

复制

相似问题

问熊猫根据过滤过的物品放行，我的解决方案-不满意
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫根据过滤过的物品放行，我的解决方案-不满意EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫根据过滤过的物品放行，我的解决方案-不满意
EN