안녕하세요! spacy 2.02를 사용하여 일부 토큰을 토큰 화하는 데 예외를 추가하려고합니다. .tokenizer.add_special_case() 일부 경우에는 사용하지만 예를 들어 US $ 100과 같은 토큰, 두 토큰에서 spacy가 사용되는 경우Spacy tokenizer, 토크 나이저 예외 추가
('US $', 'SYM'), ('100', 'NUM')
하지만 대신 각 숫자 이후에 대한 특별한 경우를 일의이 같은 세 가지로 분할 할 US $, 저는 US $ NUMBER의 형식이있는 모든 토큰에 대해 excition을 만들고 싶습니다.
('미국', 'PROPN'), ('$', 'SYM'), ('800', 'NUM')
나는이 문서에 TOKENIZER_EXCEPTIONS에 대해 읽고 있었다 spacy의 그러나 나는 이것을 어떻게 이해할 수 없다. spacy.lang.en.tokenizer_exceptions가 TOKENIZER_EXCEPTIONS 을 가져오고 메소드 update_exc이있는 또한 spacy.util()에서
나는를 사용하려고했다.
누군가 어떻게 전체 코드 예제를 게시 할 수 있습니까?
다른 점은 lang.en의 tokenizer_exceptions 파일에 이미 "i"가 "i"인 스플릿과 같은 예외가 있음을 알고 있습니다. 이미 그 부분에 댓글을 달았지만 그렇지 않습니다. 작업. 토큰 라이저가 "나"라고 나눈 것을 원하지 않습니다. 어떻게 할 수 있습니까?
감사