2017-01-02 6 views
3

저는 개인의 직업 기술을 필요로하는 작고 개인적인 프로젝트에 종사해 왔으며 이러한 기술을 기반으로 가장 이상적인 직업을 제안했습니다. 나는 이것을 달성하기 위해 구인 정보의 데이터베이스를 사용합니다.TF-IDF 및 코사인 유사성에 대한 대안 (다양한 형식의 문서 비교)

1) 각 직업에 대한 목록

2) (예를 들어, "데이터 분석")에서 설명하는 기술을 추출하는 목록 각 작업의 텍스트를 처리 결합하여, 다음과 같이 순간, 코드가 작동 하나 개의 문서

3) 나는 순위에 사용해야하는 방법을 모르겠어요, 경력 문서 내이 후

각 기술의 TF-IDF을 계산에 진로에 대한 작업 목록의 처리 된 텍스트 사용자의 기술 목록을 기반으로하는 직업. 필자가 보았던 가장 보편적 인 방법은 사용자의 기술을 문서로 취급 한 다음 기술 문서에 대한 TF-IDF를 계산하고 코사인 유사성과 같은 것을 사용하여 기술 문서와 각각의 유사성을 계산하는 것입니다 경력 문서.

이것은 동일한 형식의 두 문서를 비교할 때 코사인 유사도가 가장 적합하기 때문에 나에게 이상적인 해결책처럼 보이지 않습니다. TF-IDF는 사용자의 기술 목록에 적용하기에는 적절하지 않습니다. 예를 들어, 사용자가 목록에 추가 기술을 추가하면 각 기술에 대한 TF가 떨어집니다. 실제로, 나는 스킬의 빈도가 사용자의 스킬리스트에 어떤 영향을 미치는지 상관하지 않는다 - 나는 단지 스킬을 가지고 있다는 것에 관심이있다. , 경력 문서

2)의 경우에 그 기술의 TF-IDF를 계산)

한 사용자가 가지고있는 각 스킬 :

은 다음을 수행하는 것보다 나은 메트릭 것 같아 각각의 경력,

내가 여기 올바른 라인을 따라 생각하고 위의 합을 기반으로 사용자의 기술

3) 순위 경력 모두를위한 TF-IDF 결과를 요약하면? 그렇다면이 선을 따라 작동하는 알고리즘이 있습니까?하지만 간단한 합계보다 더 정교합니다. 도와 주셔서 감사합니다!

답변

1

설명한 두 번째 접근 방식이 효과적입니다. 그러나 이런 종류의 문제를 해결하는 더 좋은 방법이 있습니다. 처음에는 언어 모델에 대해 조금 알고 있어야하며 벡터 공간 모델을 남겨 두어야합니다. 전문가 찾기/프로파일 링과 비슷한 종류의 문제를 기반으로하는 두 번째 단계에서는 솔루션을 구현하기위한 기본 언어 모델 프레임 워크를 배워야합니다. 조금 변경하여 A language modeling framework for expert finding을 구현하면 수식을 문제에 적용 할 수 있습니다. 또한 On the assessment of expertise profiles을 읽으면 위의 프레임 워크에서 전문가 프로파일 링에 대해 더 잘 이해할 수 있습니다. Balog's blog에서 전문가 찾기/프로파일 링에 대한 좋은 아이디어, 자원 및 프로젝트를 찾을 수 있습니다.

+0

링크를 이용해 주셔서 감사합니다. 간단히 살펴보면 내가 찾고있는 것처럼 보입니다. 나는 당신의 해결책을 반대했다. 그러나 나는 그것에 대한 충분한 명성이 없다. 다시 한 번 감사드립니다! –

+0

당신을 환영합니다;) – Alikbar