Spark SQL을 사용하여 텍스트 콘텐츠를 토큰 화 하시겠습니까?

나는 apache spark와 mongodb를 사용하여 문서에 단어 사전을 생성하기위한 요구 사항을 구현하는 작업을하고있다.Spark SQL을 사용하여 텍스트 콘텐츠를 토큰 화 하시겠습니까?

제 시나리오에서는 각 문서에 문서의 소유자와 필드가있는 텍스트 형식 필드가있는 몽고 컬렉션이 있습니다.

나는 컬렉션 문서에서 텍스트 내용을 구문 분석하고 단어를 문서 및 소유자 필드에 매핑하는 사전을 만들려고합니다. 기본적으로, 키는가 필드 소유자 _ID와 될 것이라고 단어와 값이 될 것입니다.

아이디어는 사용자가 사용자의 문서를 기반으로 UI의 텍스트 상자에 입력 할 때 사용자에게 자동 제안을 제공하는 것입니다. 사용자는 여러 문서를 만들 수 있으며 단어는 여러 문서에있을 수 있지만 한 사용자 만 문서를 만들 수 있습니다.

나는 mongo spark 커넥터를 사용했으며 spark sql을 사용하여 데이터 문서에 컬렉션 문서를로드 할 수있었습니다.

데이터 프레임 열 중 하나에있는 텍스트 데이터를 처리하여 단어를 추출하는 방법을 모르겠습니다.

이는/토큰 화 단어를 추출하고 및 소유자 _ID 에 필드를 매핑하고 다른 컬렉션에 결과를 작성하는 데이터 프레임 열에서 텍스트 내용을 처리하기 위해 스파크 SQL을 사용하는 방법입니다.

만약 그렇지 않다면, 누군가 내가 올바른 접근법/단계를 달성 할 수있는 방법을 알려주십시오.

출처

2017-05-07 fezdonna

스파크는 토큰 화 및 기타 텍스트 처리 작업을 지원하지만 핵심 라이브러리에는 없습니다. 스파크 MLlib를 체크 아웃 :
https://spark.apache.org/docs/2.1.0/ml-features.html#tokenizer

: 같은 DataFrames 작업 https://spark.apache.org/docs/2.1.0/ml-guide.html

그리고 더 정확하게 변압기를

출처

2017-05-08 06:49:06

Spark SQL을 사용하여 텍스트 콘텐츠를 토큰 화 하시겠습니까?

답변

관련 문제