2017-02-22 6 views
2

텍스트 항목 사이의 일반적인 경향/주제를 평가할 수있는 알고리즘이나 방법이 있습니까?NLP : 텍스트 간의 추세를 효율적으로 비교하고 식별하는 방법

예를 들어 이제 4 개의 데이터 포인트 (텍스트 항목)이 있다고 가정 해 봅시다 : ". 물리학 시험은 꽤 쉬웠다"

  • "나는 학교에 매우 스트레스를 오늘 발견"
  • "내 물리 테스트는 전혀 도전적이지 않았습니다."
  • "물리 테스트가 간단하고 일찍 완료했기 때문에 모두가 일찍 퇴장했습니다."

이 네 가지 항목을 바탕으로 첫 번째 항목은 이상치이며 나머지 부분과 관련이 없지만 다른 세 가지 항목은 "물리 테스트"가 얼마나 쉬운 지 언급합니다 (보다 일반적으로 다른 세 가지 항목은 "물리학 시험").

관련 문장 사이에 공통 스레드를 추출하는 방법이 있습니까? 이 문장은 완전히 개방되어 있으며 단순히 대상에 대한 정서를 표현하는 것에 만 국한되지 않습니다.

나는 이것이 상당히 광범위한 질문이라고 생각하지만 사람들이 기존의 해결책이나 사람들이 과거에이 문제를 다루는 방법을 알고 있는지 묻습니다.

답변

6

가능한 해결책 중 하나는 문장 표현 (Sent2Vec)을 먼저 생성 한 다음 해당 표현을 비교하는 것입니다.

영어 문장의 문장 내장을 생성하는 데는 여러 가지 방법이 있습니다. 널리 사용되는 방법 중 하나는 skip-though vectors입니다. 문장을 벡터로 변환 한 다음 코사인 유사성을 사용하여 문장을 비교하십시오.

또한 이러한 문장 삽입을 사용하여 신경망을 학습하여 대상 작업을 수행 할 수 있습니다.

+0

재미있어 보인다 - 감사합니다! Sent2Vec 프로세스가 내 작업의 첫 번째 부분을 수행하는 데 도움이 될 것으로 보이지만 실제로 문장 사이의 관계가 무엇인지 식별하는 방법도 찾고 있습니다 (예 : 둘 다 형용사 "물리 테스트" easy ") – abagshaw

+0

@abagshaw 그러면 구문 분석이 필요하고 명사구를 추출한 다음 구문 포함을 생성하고 가능한 모든 쌍을 비교합니다. 당신은 키워드 사이 관계를 그 후에 확인하기 위하여 약간 직감을 얻어야한다! –

+0

그것이 제가 생각한 것입니다. 그러나 수십만 문장의 비교가 가능한지 확실하지 않습니다. – abagshaw