텍스트 항목 사이의 일반적인 경향/주제를 평가할 수있는 알고리즘이나 방법이 있습니까?NLP : 텍스트 간의 추세를 효율적으로 비교하고 식별하는 방법
예를 들어 이제 4 개의 데이터 포인트 (텍스트 항목)이 있다고 가정 해 봅시다 : ". 물리학 시험은 꽤 쉬웠다"
- 는
- "나는 학교에 매우 스트레스를 오늘 발견"
- "내 물리 테스트는 전혀 도전적이지 않았습니다."
- "물리 테스트가 간단하고 일찍 완료했기 때문에 모두가 일찍 퇴장했습니다."
이 네 가지 항목을 바탕으로 첫 번째 항목은 이상치이며 나머지 부분과 관련이 없지만 다른 세 가지 항목은 "물리 테스트"가 얼마나 쉬운 지 언급합니다 (보다 일반적으로 다른 세 가지 항목은 "물리학 시험").
관련 문장 사이에 공통 스레드를 추출하는 방법이 있습니까? 이 문장은 완전히 개방되어 있으며 단순히 대상에 대한 정서를 표현하는 것에 만 국한되지 않습니다.
나는 이것이 상당히 광범위한 질문이라고 생각하지만 사람들이 기존의 해결책이나 사람들이 과거에이 문제를 다루는 방법을 알고 있는지 묻습니다.
재미있어 보인다 - 감사합니다! Sent2Vec 프로세스가 내 작업의 첫 번째 부분을 수행하는 데 도움이 될 것으로 보이지만 실제로 문장 사이의 관계가 무엇인지 식별하는 방법도 찾고 있습니다 (예 : 둘 다 형용사 "물리 테스트" easy ") – abagshaw
@abagshaw 그러면 구문 분석이 필요하고 명사구를 추출한 다음 구문 포함을 생성하고 가능한 모든 쌍을 비교합니다. 당신은 키워드 사이 관계를 그 후에 확인하기 위하여 약간 직감을 얻어야한다! –
그것이 제가 생각한 것입니다. 그러나 수십만 문장의 비교가 가능한지 확실하지 않습니다. – abagshaw