文章/答案/技术大牛

发布

社区首页 >问答首页 >使用独立表中的一对ID从表中检索行

问使用独立表中的一对ID从表中检索行
EN

Stack Overflow用户

提问于 2017-12-28 09:58:55

回答 3查看 176关注 0票数 1

两份文件，

sentences_detailed.csv包含3列(ID、LANG和TEXT)
links.csv包含2列(ID1和ID2)，ID*链接到sentences_detailed.csv中的ID列

sentences_detailed.csv样品

ID LANG TEXT
123 eng I want you to meet my parents.
456 eng I'm on your side.
789 eng I did not want to alarm you. 
567 kor 부모님을 만나길 원해.
2352 jpn 私はあなたの側にいます。

和links.csv样品

ID1 ID2
123 567
2352 456

如何创建一个新的LANG，以便使用 links.csv**?**中的I对从 sentences_detailed.csv 获得相应的和 DataFrame 列

所需的输出DataFrame应该如下所示：

ID1 ID2 LANG1 LANG2 TEXT1 TEXT2
123 567 eng kor I want you to meet my parents. 부모님을 만나길 원해.
2352 456 jpn eng 私はあなたの側にいます。I'm on your side.

我试过这个：

sent_details_csv = """ID    LANG    TEXT
123 eng I want you to meet my parents.
456 eng I'm on your side.
789 eng I did not want to alarm you. 
567 kor 부모님을 만나길 원해.
2352    jpn 私はあなたの側にいます。"""

links_csv = """ID1  ID2
123 567
2352    456
"""

from io import StringIO

sent_details = pd.read_csv(StringIO(sent_details_csv), sep='\t')
links = pd.read_csv(StringIO(links_csv), sep='\t')

for idx, row in links.iterrows():
    src_idx, trg_idx = row['ID1'], row['ID2']

    try:
        src = sent_details[sent_details['ID'] == src_idx][['TEXT', 'LANG']].iloc[0]
        trg = sent_details[sent_details['ID'] == trg_idx][['TEXT', 'LANG']].iloc[0]
    except: 
        continue

    print('\t'.join(map(str, [src_idx, trg_idx, src['LANG'], trg['LANG'], src['TEXT'], trg['TEXT']])))

上面的代码适用于一个小数据集，但实际的sentences_detailed.csv是6,000,000+行，links.csv是13,000,000行。

如果为每个sent_details行提供一个源和目标idx，那么过滤掉links就会付出很大的代价。

一定有一个更好的“熊猫-ic”的方式来做到这一点。

完整的数据集在https://www.kaggle.com/alvations/how-to-get-parallel-sentences-from-tatoeba上

来自Dark、Zero和COLDSPEED的答案是好的，但是当sentences_detailed.csv和links.csv中有重复时，它们会抛出一些错误。

linked-tables

python

pandas

csv

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-12-28 10:09:26

一种快速的方法是通过分割和合并。

one = df[df['ID'].isin(links['ID1'])].copy()
two = df[df['ID'].isin(links['ID2'])].copy()

two['NEW_ID'] = two['ID'].map(links.set_index('ID2')['ID1'])

one.merge(two,left_on='ID',right_on='NEW_ID',suffixes=('1', '2'))

     ID1 LANG1                         TEXT1       ID2  LANG2       TEXT2      NEW_ID  
0   123    eng     I want you to meet my parents.  567    kor  부모님을 만나길 원해.     123  
1  2352    jpn             私はあなたの側にいます。    456    eng  I'm on your side.    2352

由于存在重复的ID，映射无法工作，因此可以使用双重合并，即

one.merge(two.merge(links,left_on='ID',right_on='ID2'),left_on='ID',right_on='ID1',suffixes=('1', '2')))

 ID1 LANG1                           TEXT1  ID2 LANG2              TEXT2  \
0   123   eng  I want you to meet my parents.  567   kor       부모님을 만나길 원해.   
1  2352   jpn                    私はあなたの側にいます。  456   eng  I'm on your side.   

    ID1  ID2  
0   123  567  
1  2352  456

根据实际数据，您可以简单地交叉合并相同的数据，因为您有相同的列名，例如

sec = sent_details.merge(links)

sec.merge(sec, left_on=['Sentence id','Translation id'],right_on=['Translation id','Sentence id'], suffixes=(1,2))

票数 3

Stack Overflow用户

发布于 2017-12-28 10:08:20

选项1]使用merge和concat的

In [328]: pd.concat([df2[['ID'+x]].merge(df1.add_suffix(x)) for x in ['1', '2']], axis=1)
Out[328]:
    ID1 LANG1                           TEXT1  ID2 LANG2              TEXT2
0   123   eng  I want you to meet my parents.  567   kor       부모님을 만나길 원해.
1  2352   jpn                    私はあなたの側にいます。  456   eng  I'm on your side.

选项2]

一种方法是将map与set_index结合使用。

In [307]: df11 = df1.set_index('ID')

In [308]: for c in ['LANG', 'TEXT']:
     ...:     for x in ['1', '2']:
     ...:         df2[c + x] = df2['ID' + x].map(df11[c])
     ...:

In [309]: df2
Out[309]:
    ID1  ID2 LANG1 LANG2                           TEXT1              TEXT2
0   123  567   eng   kor  I want you to meet my parents.       부모님을 만나길 원해.
1  2352  456   jpn   eng                    私はあなたの側にいます。  I'm on your side.

详细信息

In [303]: df1
Out[303]:
     ID LANG                            TEXT
0   123  eng  I want you to meet my parents.
1   456  eng               I'm on your side.
2   789  eng   I did not want to alarm you.
3   567  kor                    부모님을 만나길 원해.
4  2352  jpn                    私はあなたの側にいます。

In [304]: df2
Out[304]:
    ID1  ID2
0   123  567
1  2352  456

票数 2

Stack Overflow用户

发布于 2017-12-31 19:39:04

您可以使用links中的links列作为sent_details列的索引器，使用loc -

df1 = df1.set_index('ID')

i = df1.loc[df2.ID1].reset_index().add_suffix('_1')
j = df1.loc[df2.ID2].reset_index().add_suffix('_2')

pd.concat([i, j], 1)

   ID_1 LANG_1                          TEXT_1  ID_2 LANG_2                 TEXT_2
0   123    eng  I want you to meet my parents.   567    kor       부모님을 만나길 원해.
1  2352    jpn          私はあなたの側にいます。   456    eng       I'm on your side.

在哪里-

df1 = sent_details

和,

df2 = links

如果您希望根据您的需求对结果进行排序，请使用sort_index -

v = pd.concat([i, j], 1)
v.reindex(columns=sorted(v.columns, key=lambda x: x.split('_')[0]))

   ID_1  ID_2 LANG_1 LANG_2                          TEXT_1                 TEXT_2
0   123   567    eng    kor  I want you to meet my parents.       부모님을 만나길 원해.
1  2352   456    jpn    eng           私はあなたの側にいます。      I'm on your side.

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48005341

复制

相似问题

问使用独立表中的一对ID从表中检索行
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用独立表中的一对ID从表中检索行EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用独立表中的一对ID从表中检索行
EN