SpaCy 문서 및 샘플은 PhraseMatcher 클래스가 문서의 토큰 시퀀스를 일치시키는 데 유용함을 보여줍니다. 일치시킬 시퀀스의 어휘를 제공해야합니다.SpaCy의 PhraseMatcher를 사용하여 여러 일치 유형 찾기
내 응용 프로그램에는 토큰 및 구문 모음 인 문서가 있습니다. 다른 유형의 엔티티가 있습니다. 데이터는 원격으로 자연어입니다 (문서는 오히려 세미 임의 순서의 키워드 집합입니다). 여러 유형의 일치 항목을 찾으려고합니다.
yellow boots for kids
가 어떻게 제품 유형 (예를 들어, 부츠)에 대한 색상 (예를 들어 노란색)에 대한 일치하는 항목을 찾을 수 있습니다 및 적응의 PhraseMatches를 사용하여 연령 (예를 들어, 어린 이용)에 대한 예를 들면 다음과 같습니다
? 좋은 유스 케이스인가요? 다른 엔티티가 오버랩과 일치하면 (예 : 색상이 색상 목록 및 재료 목록에서 일치 함) 모든 고유 사례를 생성 할 수 있습니까?
데이터가 느슨하게 구조화되어 모호성으로 가득차 있기 때문에 실제로 시퀀스 타거를 사용할 수 없습니다. 엔티티 목록 (예 : 색상, 연령, 제품 유형) 및 관련 가치 목록이 있습니다.
하나의 아이디어는 각 엔티티마다 하나씩 여러 개의 PhraseMatcher 개체를 인스턴스화하고 개별적으로 일치 작업을 수행 한 다음 결과를 병합하는 것입니다. 각 엔티티 유형은 고유 한 어휘를 갖게됩니다. 이것은 간단하지만 효율적인 것은 아니며, 특히 병합 부분입니다. 값 목록은 상당히 큽니다. 이 경로를 가기 전에, 이것이 좋은 생각인지 또는 SpaCy를 사용하여 더 간단한 방법이 있는지 알고 싶습니다.
대단하다! 내 질문에 답한 다음 몇 가지를 답하십시오! –