데이터 프레임에 열이 있습니다. 그것은 '$ 5', '9 %'같은 값을 가지는 등pyspark 데이터 프레임의 regex_replace를 사용하여 열의 특수 문자를 바꾸는 방법
나는 그것이 위의 예에서 특수 문자를 제거하는 방식으로 regex_replace
를 사용하고 단지 숫자 부분을 유지해야합니다.
같은 열에서 각각 9 %와 5 대신 9와 5 같은 예를 사용합니다.
데이터 프레임에 열이 있습니다. 그것은 '$ 5', '9 %'같은 값을 가지는 등pyspark 데이터 프레임의 regex_replace를 사용하여 열의 특수 문자를 바꾸는 방법
나는 그것이 위의 예에서 특수 문자를 제거하는 방식으로 regex_replace
를 사용하고 단지 숫자 부분을 유지해야합니다.
같은 열에서 각각 9 %와 5 대신 9와 5 같은 예를 사용합니다.
df.withColumn("batch",regexp_replace(col("batch"), "/[^0-9]+/", ""))
지금까지 해보신 것은 무엇입니까?
select regexp_replace("'$5','9%'","[^0-9A-Za-z]","")
본 정규식 사용할 수
\W+
\W
는 -
열을 생성'배치 ([^ A-ZA-Z0-9_]와 동일)가 아닌 단어 문자 일치 '값으로 숫자 만 사용 ... 숫자를 제외한 모든 것은 공백으로 바뀝니다 –
응답이 늦어 져서 죄송합니다. 내가 당신의 코드를 시도하고 괜찮 았어. 고마워요. –