텍스트가있는 스파크 데이터 프레임에 열이 있습니다.스파크 데이터 프레임의 문자열 열에서 단어를 추출하십시오.
특수 문자 '@'
으로 시작하는 모든 단어를 추출하고 해당 텍스트 열의 각 행에서 regexp_extract
을 사용하고 있습니다. 텍스트에 '@'
으로 시작하는 여러 단어가 포함되어 있으면 첫 번째 단어를 반환합니다.
나는 스파크에 내 패턴과 일치하는 여러 단어를 추출 찾고 있습니다.
data_frame.withColumn("Names", regexp_extract($"text","(?<=^|(?<=[^a-zA-Z0-9-_\.]))@([A-Za-z]+[A-Za-z0-9_]+)",1).show
시료 입력 : @always_nidhi @YouTube no i dnt understand bt i loved the music nd their dance awesome all the song of this mve is rocking
샘플 출력 : @always_nidhi,@YouTube
함수 정의에 따라 regexp_extract는 첫 번째 일치 항목 만 반환하고 가능한 모든 일치 항목을 찾기 위해 전체 텍스트를 반복하지 않습니다. 모든 일치에 대해 반복 할 사용자 고유의 UDF를 작성하고 결과를 목록 –
으로 리턴해야합니다. 안녕하세요 @AmitKumar, 제발 도와주세요. 나는 새로운 스칼라와 스파크를 찾고 배우고 있습니다. – Sree51
샘플 데이터와 예상 결과를 게시 할 수 있습니까? – philantrovert