文章/答案/技术大牛

发布

社区首页 >问答首页 >如何分割熊猫数据栏的结果？

问如何分割熊猫数据栏的结果？
EN

Stack Overflow用户

提问于 2022-11-11 05:44:33

回答 1查看 40关注 0票数 0

我尝试在df['text']中拆分文本列，但是paddleocr用conf输出文本，所以我不知道如何将它分成两个部分，我尝试使用lstrip，但没有工作。结果如下：

ID                               Text
0                     (7-Eleven Malaysia, 0.9709457)
1                             (Sdn.Bhd., 0.97443557)
2                                (ELEVEn, 0.9140763)
3               (LevelA,Podfum BfockPla, 0.88208693)
4     (No.12Jalan lmbi.55100Kuaia Lumpur, 0.9308618)
5           (#0463 Tmn Me]ur Ampang SEL, 0.94200194)
6                   (Tel No.:60321142463, 0.9128232)
7                   (WELCOME TO 7-ELEVEN, 0.9357082)
8         (18/04/202121:28RCPT01-288319, 0.97587883)
9      (Staff Name: DASHATARAN A/L RAJAM, 0.9589798)
10                   (Coke Vanilla500ml, 0.98303896)
11                                 (3.20, 0.9908478)

因为如果在本部分中我不能这样做，那么按照下面的部分，文本清理将删除()，并将文本与conf合并如下：

TEXT
7elevenmalaysia09528224
sdnbhd12009405007
eleven0941575

以下是代码：

from tqdm import tqdm
import os
import cv2
import re

imgPaths = glob('C:/Users/23573/Desktop/img/*.jpg')

dfs = []
for imgPath in tqdm(imgPaths,desc='Receipt'):   
    _, filename = os.path.split(imgPath) 
    ocr = PaddleOCR(lang='en')   
    result = ocr.ocr(imgPath)
    img_df = pd.DataFrame(result, columns=['bbox','text'])
    print(img_df['text'])

    img_df['img_id'] = filename
    
paddleocr_df = pd.concat(dfs)

因为我不能像我想要的那样清理(结果)格式。该桨ocr输出，文本与conf粘在一起。结果是一种我无法分割的列表格式。df['text']是一种元组格式，我不能lstrip，所有这些我都不能使用str和split。

我的预期结果是：

ID                 TEXT                 conf
0              7-Eleven Malaysia        0.9709457
1              Sdn.Bhd                  0.97443557
2              ELEVEn                   0.9140763

dataframe

paddleocr

python

pandas

回答 1

Stack Overflow用户

发布于 2022-11-11 06:30:36

df[['text', 'num']] = df['Text'].str.split(',', 1, expand=True)

或者这个：

df = pd.DataFrame(df.row.str.split(',',1).tolist(),
                                 columns = ['text','num'])

或者这个：

df.join(df['Text'].str.split(',', 1, expand=True).rename(columns={0:'text', 1:'num'}))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74398474

复制

相似问题

问如何分割熊猫数据栏的结果？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何分割熊猫数据栏的结果？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何分割熊猫数据栏的结果？
EN