저는 개인의 직업 기술을 필요로하는 작고 개인적인 프로젝트에 종사해 왔으며 이러한 기술을 기반으로 가장 이상적인 직업을 제안했습니다. 나는 이것을 달성하기 위해 구인 정보의 데이터베이스를 사용합니다.TF-IDF 및 코사인 유사성에 대한 대안 (다양한 형식의 문서 비교)
1) 각 직업에 대한 목록
2) (예를 들어, "데이터 분석")에서 설명하는 기술을 추출하는 목록 각 작업의 텍스트를 처리 결합하여, 다음과 같이 순간, 코드가 작동 하나 개의 문서
3) 나는 순위에 사용해야하는 방법을 모르겠어요, 경력 문서 내이 후
각 기술의 TF-IDF을 계산에 진로에 대한 작업 목록의 처리 된 텍스트 사용자의 기술 목록을 기반으로하는 직업. 필자가 보았던 가장 보편적 인 방법은 사용자의 기술을 문서로 취급 한 다음 기술 문서에 대한 TF-IDF를 계산하고 코사인 유사성과 같은 것을 사용하여 기술 문서와 각각의 유사성을 계산하는 것입니다 경력 문서.
이것은 동일한 형식의 두 문서를 비교할 때 코사인 유사도가 가장 적합하기 때문에 나에게 이상적인 해결책처럼 보이지 않습니다. TF-IDF는 사용자의 기술 목록에 적용하기에는 적절하지 않습니다. 예를 들어, 사용자가 목록에 추가 기술을 추가하면 각 기술에 대한 TF가 떨어집니다. 실제로, 나는 스킬의 빈도가 사용자의 스킬리스트에 어떤 영향을 미치는지 상관하지 않는다 - 나는 단지 스킬을 가지고 있다는 것에 관심이있다. , 경력 문서
2)의 경우에 그 기술의 TF-IDF를 계산)
한 사용자가 가지고있는 각 스킬 :
은 다음을 수행하는 것보다 나은 메트릭 것 같아 각각의 경력,
내가 여기 올바른 라인을 따라 생각하고 위의 합을 기반으로 사용자의 기술3) 순위 경력 모두를위한 TF-IDF 결과를 요약하면? 그렇다면이 선을 따라 작동하는 알고리즘이 있습니까?하지만 간단한 합계보다 더 정교합니다. 도와 주셔서 감사합니다!
링크를 이용해 주셔서 감사합니다. 간단히 살펴보면 내가 찾고있는 것처럼 보입니다. 나는 당신의 해결책을 반대했다. 그러나 나는 그것에 대한 충분한 명성이 없다. 다시 한 번 감사드립니다! –
당신을 환영합니다;) – Alikbar