2017-01-20 12 views
0

5k, 50k, 7.5k, 75k, 10K, 100K와 같은 단어가있는 자료가 있습니다. 그래서 tm 패키지를 사용하여 TDM을 만들 때 10k와 100k와 같은 용어가 별도로 추출됩니다. 그러나 5k와 7.5k는 별도의 용어로 추출되지 않습니다. 이제 구두점 수정 후 "7.5k"가 "75k"용어 아래에 떨어질 수 있지만 "5k"는 어떻게되는지 이해합니다. 용어로 추출되지 않는 이유는 무엇입니까?tm 패키지를 사용하여 강제로 조건 생성

기본적으로, 나는 특정 단어를 찾아 핵심 용어로 추출하기 위해 FORCE TM 패키지에 대한 방법이 있는지 알고 싶습니다.

모든 포인터가 도움이 될 것입니다!

답변

0

단어를 구두점으로 구분합니까? 즉, '입니다.' 단어 끊기 문자? 그렇다면 '7.5k'의 분할은 ('7', '5k')이고 두 번째는 '5k'와 일치합니다.

+0

감사합니다. JWLM, 제가 tm이 캡처 할 수있는 2 부분으로 10 진수로 문자를 나눕니 다. – shashankp