2017-12-28 32 views
1

에서 개별 단어를 라벨 기계를 훈련하기 :어떻게 (말) 텍스트에 대한 텍스트

가. "나는 인도가 오늘은 일주일 동안 미국에 헤딩하고 떠납니다."

"나는 인도에서 미국으로 여행을하고있다" 가 나는 위치를 추출하는 적응의 NER을 사용하고 있습니다 "소스"

로 "대상"과 인도로 미국에 레이블을 할 수있는 기계를 훈련해야합니다.

교육 세트를 만들고 훈련하는 방법은 어떻게해야합니까? 내 특성 벡터 및 레이블 벡터는 무엇입니까?

+1

다음 텍스트에서 패턴을 찾아야합니다. 회사 이름이 모든 키워드 "회사"앞에 오는 것을 볼 수 있습니다. 값을 사용하여 사전을 추출하고 사전을 유지할 수 있습니다.보다 우수한 회사는 –

+0

답장을 보내 주셔서 감사합니다. @HariomSingh . 나는 나의 질문을 조금 편집했다. 회사 이름이 ABC 및 XYZ (예 : google 또는 microsoft) 인 경우에는 어떻게해야합니까? 그리고 값을 할당 할 때 솔루션을 자세히 설명 할 수 있습니까? (가능한 경우 NLP/ML 중 하나를 사용해야합니다.) – Phoenix

+0

넣어 두었던 작업이 다소 모호하지만 자연어 처리의 몇 가지 개념에 익숙해 져야합니다. 확실히 네임 엔티티 인식이 필요합니다. NLTK와 같은 인기있는 nlp 라이브러리에서 제공하는 것입니다. 또한 모델에 소스와 대상 (코퍼스에서 위치를 찾은 것)의 차이를 인식하도록 교육하는 데 필요한 많은 교육 데이터가 필요합니다. –

답변

0

유망한 것으로 생각되는 접근 방식 중 하나는 질문 응답에 동적 메모리 네트워크를 사용하는 것입니다. 그들이 해결하고자하는 문제는 당신이 풀려고 시도하는 것을 일반화 된 버전입니다. 당신의 경우에 당신은 단지 두 가지 질문에 답할 것입니다 : "어느 것이 원천입니까?" 및 "목적지는 어느 것인가?" paper과 동일한 접근 방식을 설명하는 video lecture을 살펴보십시오.

원본 및 대상에 대한 충분한 진실을 보여주는 교육 예제가있는 한 교육 집합을 생성하는 것이 쉬워야합니다.

두 가지 다른 질문 만 처리 할 수도 있습니다. 질문에 대한 임베딩을 계산하고, 두 개의 다른 모델을 훈련 시키며, 응답을위한 응답을위한 소스와 목적지를 찾는 두 번째 모델을 대신 사용할 수 있습니다.

+0

@ 감사합니다. 나는 당신이 말한 모든 것을 살펴보고 작업을 완료 한 후에 다시 한번 감사드립니다. – Phoenix