2016-08-17 9 views
-4

두 개의 데이터 세트가 있습니다. 하나는 계약의 세부 사항을 포함하고 다른 하나는 조직의 세부 사항을 포함합니다. 예를 들어 : 하나의 데이터 세트에는 회사 이름, 설명, 회사 유형 등 세부 정보가 있습니다. 다른 데이터 세트에는 세부 계약서 이름, 계약서 설명, CPV 코드가 있습니다. 1) 주어진 회사에 대해 가장 밀접하게 관련되거나 잠재적으로 흥미로운 상위 10 개 계약을 찾을 수있는 알고리즘을 원합니다. 2. 계약을 맺으면 계약을 맺거나 계약을 맺을 가능성이 큰 회사를 찾을 수 있습니다. 첫 번째 데이터 집합의 한 행을 두 번째 데이터 집합의 가장 일치하는 클러스터에 일치시키는 일회성, 실시간 알고리즘 일 수 있습니다. 두 개의 서로 다른 데이터 세트에서이 유형의 행 교차 일치를 수행 할 수 있습니까? 이런 종류의 일치를 위해 텍스트 설명을 사용할 수 있습니까? 누군가 코드 예제를 가지고 있다면 큰 도움이 될 것입니다. 고맙습니다. 여기에도 예제 데이터 세트를 첨부하고 있습니다.R 또는 임의의 기계 학습 플랫폼에서 교차 데이터 매칭 알고리즘 (별도의 데이터 세트)

Company data

Contract data

+0

두 데이터 세트의 예를 추가하십시오. – Barker

+0

@Barker 데이터 세트를 첨부했습니다. 확인해주십시오. – Joe

답변

2

귀하의 질문 효과적으로 "사람이 할 것인가 ~ 10K를 무료로 나를 위해 데이터 과학의 가치가?" 찾고있는 것은 recommender system이며 구체적으로는 content based filtering system 인 것으로 보입니다. 이러한 작업을 수행하려면 두 데이터 세트를 살펴보고 계약 및 클라이언트를 정량적으로 설명하는 데 사용할 수있는 기능을 개발해야합니다. 조직에 관심이있는 이전 계약에 대한 정보가있는 경우 협업 필터링의 측면을 통합하는 하이브리드 알고리즘을 사용할 수 있습니다.

R에는 이러한 유형의 문제를 해결하는 데 도움이되는 recommenderlab 패키지가 있습니다. 나는 그것을 사용하지 않았지만 그것을 감추고, 그것은 견고한 것 같다. 더 적은 옵션으로 플러그 앤 플레이를 좀더 원하는 경우, AzureML을 체크 아웃하는 것이 좋습니다. GUI 인터페이스를 사용하여 recommender tutorial을 비롯한 데이터 과학 프로세스를 통해 사용자를 안내합니다. text classifier tutorial 중 일부를 사용하여 자유 형식 텍스트를 포함하는 분야의 기능을 엔지니어가 도울 수 있습니다.

행운을 빈다.

+0

데이터 세트의 설명을 사용하는 알고리즘을 개발했습니다. 필자는 word2vec, h2o 및 기타 텍스트 마이닝 기능을 사용하여 설명의 단어를 사용하여 입찰을 특정 카테고리로 분류했습니다. 예를 들면 : 나는 건강 관련 텐더를 설명에서 "건강 범주"로 분류 할 수있다. 하지만이 카테고리에 회사 설명을 매치 할 방법이 없습니다. – Joe

+0

아이디어 나 예제가 필요합니다. 나는 완전한 해결책을 요구하지 않는다. 난 그냥 "무료"두 데이터 집합에서 일치하는 단어를 메서드를 원한다 :). 그리고 네. Azure ML에서 해결책을 찾아 보겠습니다. – Joe

+0

사용할 문제 및 알고리즘에 대한 일반적인 접근 방법을 찾고 있다면이 질문은 "교차 유효성 검사"에서 더 좋습니다. "스택 오버플로"는 구현에 대한 기술적 인 도움을 제공합니다. 귀하의 질문에 대한보다 직접적인 대답으로 추천 시스템에 관한 위키 피 디아 (Wikipedia) 기사에 게시 한 링크를 확인하십시오. 여기에는 많은 방법의 클래스 및 작업하는 데이터 유형의 많은 예가 포함되어 있습니다. 과거 계약에 대한 정보를 손에 넣을 수 있고이를 수락하면 고객을위한 기능을 수집 할 필요가 없기 때문에 이것이 도움이 될 것입니다. – Barker