2017-09-25 6 views
0

글러브에 '.'과 같은 구두점이 있습니다. 단어로 계산됩니다. 그러나 미국의 경우. 및 u.k. 분리 할 수 ​​없습니다.파이썬에서 글자를 적절하게 분할하는 방법은 무엇입니까?

예를 들어, 문장이 있습니다.

그는 우리에게 것입니다.

입니다 원하는 것은 장갑 [ '그', ''들 ','가고 ''에 ''우리 ','. '] 가 어떤 좋은 방법이있다 쪼개지?

+0

배열의 각 값을 반복하고'.'이 있는지 확인할 수 있습니다. 거기에 있다면, 당신의 필요에 따라 그것을 제거하십시오.'u'를'us'로 변환 할 때, 배열 자체에서'.'을 제거 할 때, 당신이 찾고있는 것이면 – Anuj

답변

1

교육에 사용 된 입력이 분리 된 것과 같은 방법으로 입력을 분리해야합니다. 사전 훈련 된 벡터를 사용하고 있고 그 벡터가 어떻게 생성되었는지 알지 못하는 경우에는 자신의 벡터를 학습하거나 작성자에게 입력을 토큰 화 한 방법을 문의 할 수 있습니다.

또한 마지막 단어가 약어 인 경우에도 문장은 이중 기간으로 끝나지 않습니다.

wrong: He's going to the U.S.. 
right: He's going to the U.S. 

here에 대한 자세한 설명을 읽을 수 있습니다.

또한 현대 영어에서는 약어로 마침표를 사용하지 않는 것이 일반적이며, 예를 들어 The Guardian에는 마침표가없는 "US News"및 "UK News"섹션이 있습니다. 실제 문제로서 특정 데이터 세트에 많은 것이 나오지 않는 한이 특정 문제에 대해 걱정할 필요가 없다고 생각합니다.