나는 특히 데이터가 누락 된 값을 처리하기 위해 사전 처리하려고합니다. 단어 목록과 텍스트 데이터가있는 두 개의 열이 있습니다. 목록에서 단어가 두 개의 텍스트 열 중 하나 이상있는 경우, 나는조건에서 목록에서 단어 누락 값을 채우기
import pandas as pd
a=['coffee', 'milk', 'sugar']
test=pd.DataFrame({'col':['missing', 'missing', 'missing'],
'text1': ['i drink tea', 'i drink coffee', 'i drink whiskey'],
'text2': ['i drink juice', 'i drink nothing', 'i drink milk']
})
는 그래서 dataframe 모습 단어와 fillna 적용의 결과로 "실종"한 열 "COL"(함께 실종 채우기) "실종"
Out[19]:
col text1 text2
0 missing i drink tea i drink juice
1 missing i drink coffee i drink nothing
2 missing i drink whiskey i drink milk
나는 그런 코드는 100 000 행과 목록 "a"는이 작업을 완료 주변 870초 소요 2000 요소로 루프를
for word in a:
test.loc[(test["col"]=='missing') & ((test["text1"].str.count(word)>0)
| (test['text2'].str.count(word)>0)), "col"]=word
을 적용 내놓았다. 거대한 데이터 프레임에서 더 빠르게 만들 수있는 솔루션이 있습니까? 사전에 감사
당신이 여기'pandas'를 사용하고 있습니까? 여기서 필요없는 태그 몇 개를 제거하고 그 중 하나를 추가 할 수도 있습니다. [mcve]를 제공하십시오. –
누락 된 값을 나타내는 열은 무엇입니까? – Tanu
fillna ("missing")을 적용한 결과 "col"열이 "누락되었습니다" – Yury