2013-04-25 2 views
1

저는 UIMA를 처음 사용했습니다.이메일 구문 분석을위한 UIMA

UIMA와 uimaFIT를 사용하여 확인 이메일, 취소 이메일 등 항공 티켓과 관련된 이메일을 구문 분석하고 티켓 번호, 항공편 번호, 출발 시간, 도착 시간, 승객 명 등 어떻게 uimaFIT를 사용하여이를 달성 할 수 있습니까? 현재 uimaFIT를 사용하여 문자열을 읽으려고 시도했지만 정규식을 사용하여 정보를 추출하려고 시도했지만 전자 메일이 구조화되지 않았기 때문에 너무 복잡해 보입니다. RegEx를 사용하지 않고 전자 메일과 연결하고 구문 분석을 수행하는 방법에 대한 제안.

제안 사항.

답변

1

전자 메일 유형 (확인 전자 메일, 취소 전자 메일 등)은 충분히 작습니까? 그렇다면 첫 번째 단계에서 이메일 유형에 대한 간단한 분류를 시도하십시오. 다음 단계에서 이메일 유형에 따라 다양한 도구를 적용 할 수 있습니다.

나머지는 지루할지라도 regexes를 사용하는 것이 가장 좋습니다. regexes/규칙을 신속하게 구현하려면 UIMA TextMarker을 참조하십시오. 필드 : 이메일 가진 사람 NER (here UIMA 예) (또는 일치 :

  • 티켓 번호 : 정규식
  • 비행 번호 : 정규식
  • 출발 시간, 도착 시간 : 정규식
  • 승객 이름?)