文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从带有公共部件的列表中删除字符串

问如何从带有公共部件的列表中删除字符串
EN

Stack Overflow用户

提问于 2018-09-28 10:41:31

回答 1查看 233关注 0票数 1

我需要从包含python中常见部分的列表中删除重复内容。我的清单是这样的：

- Addition  domainname1.com 80.80.80.80
+ Addition  domainname1.com 80.80.80.81
- Bitsquatting domainname2.com 104.160.171.87
+ Bitsquatting domainname2.com 104.160.172.85
- Homoglyph domainname3.com 206.188.193.4
- Insertion domainname4.com 206.188.200.6
- Insertion domainname5.com 206.188.200.7
+ Insertion domainname5.com 206.188.200.8

在这个列表中，我只想保留具有唯一域名的字符串(而不是具有公共域名和不同IP的字符串)：

- Homoglyph domainname3.com 206.188.193.4
- Insertion domainname4.com 206.188.200.6

我尝试使用split()获取域名列表：

domainname1.com
domainname1.com
domainname2.com
domainname2.com
domainname3.com
domainname4.com
domainname5.com
domainname5.com

并删除常见的域名，但我不得不从前面的列表中删除相应的字符串。

for line in change:
    name = line.split()
    domain_name = name[2]

我获得域名列表的方法(change是我的初始列表)。

谢谢

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-28 10:52:12

获取唯一主机名

您可以遍历这些行，每次将域名添加到set中，如下所示：

my_set = {line.split()[2] for line in change}
the_domains = list(my_set)

如果所有行都遵循域是一个“单词”的格式，并且在该域之前有两个“单词”，那么这将起到作用。

上述情况并不能保证订单得到维持。如果这是必需的，您可以使用uniqness过滤器，例如：

def uniq(iterable):
    already = set()
    for x in iterable:
        if x not in already:
            yield x
            already.add(x)

然后我们就可以像：

the_domains = list(uniq(line.split()[2] for line in change))

获取具有唯一主机名的行

我们可以稍微泛化uniq函数以允许一个关键参数，例如：

def uniq(iterable, key=lambda x: x):
    already = set()
    for x in iterable:
        fx = key(x)
        if fx not in already:
            yield x
            already.add(fx)

然后，我们可以使用以下内容显示主机名的第一行：

the_domains = list(uniq(change, key=lambda line: line.split()[2]))

删除带有主机名的两次或两次以上的行

通过使用计数器，我们还可以删除带有主机名的所有行，这些行发生两次或更多次：

from collections import Counter

def non_dup(iterable, key=lambda x: x):
    iterable = list(iterable)
    cntr = Counter(map(key, iterable))
    return filter(lambda x: cntr[key(x)] < 2, iterable)

然后用以下方法过滤：

the_domains = list(non_dup(change, key=lambda line: line.split()[2]))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52553597

复制

相似问题

问如何从带有公共部件的列表中删除字符串
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从带有公共部件的列表中删除字符串EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从带有公共部件的列表中删除字符串
EN