문서에서 콘텐츠 추출

NLP를 통해 기술, 인증, 취업 경험 등과 같은 다양한 섹션을 가진 이력서에서 해당 콘텐츠를 추출하고 해당 카테고리별로 태그를 추가하려고합니다. 다양한 문장 부호로 텍스트를 추출하는 기본 규칙을 작성할 수는 있지만 어떤 경우에는 작동하지 않을 수도 있습니다. 이 경우 Automatic segmentation 도움이 될 것입니다. 이 문제를 해결하기위한 적절한 접근 방법은 무엇입니까?문서에서 콘텐츠 추출

SKILL SET 
    Machine learning, Deep learning, Python, Julia, NLP 

CERTIFICATIONS 
Coursera: R Programming, The Data Scientist Toolbox 2015 
Galvanize: Data science & big data analytics 2017 

PROFESSIONAL TRAINING 
    MIT Professional education program in MACHINE LEARNING and text processing 

PROFESSIONAL RECOGNITIONS   
    Microsoft Cheers Award, Microsoft Excellence award 

PROFESSIONAL ROLES AND RESPONSINBILITIES 
    Building scalable system architecture for distributed applications 
    Training junior developers in advance ML 
    Prototyping and testing data driven products

출처

2017-12-18 joel

사전을 사용하여 이력서에있는 공통 제목을 찾아 본 다음 해당 단어가있는 경우 텍스트를 구분합니다. 이 솔루션은 일반적으로 이력서에있는 여러 섹션에 대한 사전이 필요합니다.

출처

2018-01-09 10:07:36 joel

이력서를 해당 카테고리별로 분류하는 경우가 있습니다. 자율 학습 클러스터링 알고리즘을 사용해보십시오. 사전과 규칙을 작성하는 데는 준비 시간이 더 필요합니다.

이력서의 데이터베이스 만들기 :
나는 당신의 사용 케이스 달성하기 위해 다음 단계를 권장합니다 개발자, 개발 운영, 데이터 과학자, 전체 스택 등을
기차 K-수단
업로드 사용자 이력서를 모델링 등 사용자 클러스터 중심으로부터의 거리를 예측
디스플레이 결과

출처

2018-01-09 13:30:54 Bhuvanesh

안녕 @Bhuvanesh, 문제는 이력서에서 내용을 추출하지 못하며 범주를 다시 시작할 수 없습니다. – joel

@joe 섹션의 유형 (따라서 번호)이 고정되어 있으면 섹션 제목을 클러스터링 할 수 있습니다 (일부 벡터 표현에 기반). 분류 된 데이터를 수집하는 경우 분류자를 훈련시킬 수도 있습니다. – dada

답변

관련 문제