0

일부 이벤트 설명 텍스트가 있습니다. 이벤트의 입장료를 추출하고 싶습니다. 때때로 입회비는 조건부입니다.NLP의 정보 추출을위한 패턴 인식 또는 명명 된 개체 인식

달성하고자하는 것은 참가비 및 조건 (가능한 경우)을 추출하는 것입니다. 입장료 + 조건을 알려주는 전체구나 문장을 검색하는 것이 좋습니다.

주 I : 본문은 독일어로되어 있습니다. 주 2 : 문장은 주로 이벤트 전단지 또는 광고이므로 문장이 완전하지 않은 경우가 많습니다.

NLP에서이 문제의 범주는 무엇입니까? 그것은 Entity Recognition으로 불리며 Apache openNLP로 자체 모델을 교육하여 해결할 수 있습니까? 아니면 유스 케이스 (입구, $하지만, 만, [번호] 오전/오후, ...)에서 일반적인 키워드를 통해 패턴을 감지하는 것이 더 쉬울 것이라고 생각했습니다.

나에게 불을 밝히십시오.

입력 예 : - "오후 10시 이전에 클럽에 입장하면 입장료는 무료이며 이후에는 6 $"입니다. - "오늘 밤 5 시까 지 11 시까 지 파티에 참가하십시오. 입장료는 8 $이지만 소녀와 학생에게는 반값입니다."

답변

-2

명명 된 엔티티 추출 부분에 대해 스탠포드의 CoreNLP를 사용해보십시오. 돈 가치를 찾아내는 데 도움이 될 것입니다. 또한 독일어 교육을받은 모델에 대한 링크도 있습니다 (https://nlp.stanford.edu/software/CRF-NER.shtml).

정보가 포함 된 전체 문장을 추출하는 것이 좋다고 가정 할 때, 나는 2 진 문장 분류 접근법을 제안 할 것입니다. ngrams 및 명명 된 엔티티 정보를 기능으로 사용하면 상당히 멀어 질 수 있습니다. 즉, 문서를 자동으로 문장 단위의 조각으로 분할하는 파이프 라인을 구축해야 할 필요가 있음을 의미합니다. 첫 번째로 https://stanfordnlp.github.io/CoreNLP/으로 문장 분할 도구 (Stanford CoreNLP에서 제공)를 사용해 볼 수도 있습니다. 이것이 이후의 모든 작업을위한 기초가되므로, 결과가 최소한 괜찮은지 확인하기를 원할 것입니다. 아마도 문서 자체의 구조 자체만으로도 문장 분할 도구를 사용하지 않고도 분류 할 수있는 충분한 정보를 얻을 수 있습니다.

이 파이프 라인을 마련한 후에는 관련이 있거나 관련이없는 문서 집합에서 추출한 문장에 주석을 달아 이진 분류 작업을 수행 할 수 있습니다. 그런 다음 해당 데이터 세트를 기반으로 모델을 교육하십시오. 마지막으로, 보이지 않는 데이터에 적용 할 때는 먼저 문장 분할 접근법을 사용하고 각 문장을 분류하십시오.

+0

답장을 보내 주셔서 감사합니다. "입구"에 관련된 문장을 어떻게 찾을 수 있는지 좀 더 자세하게 설명해 주시겠습니까? 아니면 모델을 훈련해야합니까? – user3234675

1

이것은 일반적으로 구조 학습 문제입니다. 명명 된 엔티티 인식/태깅과 Coreference Resolution을 결합해야 할 수도 있습니다. 관련 github 코드뿐만 아니라 이들에 대한 몇 가지 논문을 읽고 거기에서 가져 가십시오. 여기에 이것들에 대한 최첨단 도구에 대한 좋은 논의가 있습니다. https://www.reddit.com/r/MachineLearning/comments/3dz3fl/dl_architectures_for_entity_recognition_and_other/

희망이 있습니다.