"lol", "brb"와 같은 인터넷 속어/채팅 속어를 제거 할 수있는 Python 모듈 (nltk python에있을 수 있음)이 있습니까? 방대한 속어 목록으로 구성된 CSV 파일?인터넷 전문 용어/속어/약어를 제거하는 파이썬 모듈
웹 사이트 http://www.netlingo.com/acronyms.php에는 두문자어 목록이 있지만 내 프로그램에서 사용하기위한 CSV 파일을 찾을 수 없습니다.
"lol", "brb"와 같은 인터넷 속어/채팅 속어를 제거 할 수있는 Python 모듈 (nltk python에있을 수 있음)이 있습니까? 방대한 속어 목록으로 구성된 CSV 파일?인터넷 전문 용어/속어/약어를 제거하는 파이썬 모듈
웹 사이트 http://www.netlingo.com/acronyms.php에는 두문자어 목록이 있지만 내 프로그램에서 사용하기위한 CSV 파일을 찾을 수 없습니다.
특수 용어 파일 : http://www.catb.org/jargon/.
Kevin's Word List Page : 지금까지주의를 지불하지 않은 수용에 그 팁에 대한 속어 단어 목록 및 사전
그건 분명히 Jargons의 거대한 컬렉션입니다, 필요한 것들을 필터링하는 것은 고통의 비트입니다. 감사 – Rkz
감사에 대한 링크를 참조하십시오. 내 질문에, 나는 xml 콘텐츠를 구문 분석에 대한 아름다운 수프를 사용하지만, 지금 나는 머리 글자의 목록을 찾고 아름다운 수프 그런 목록/두문자어 사전을 포함하는 하나의 모듈을 가지고 있습니까? 나는 그것을 의심한다. – Rkz
당신은 나를 오해했습니다. BS를 사용하여 링크 된 사이트의 HTML 페이지를 CVS 파일로 변환해야합니다. :) – mac
일부 유닉스 배포판에서'wtf' 유틸리티와 함께 제공되는'acronyms' 파일을 확인하고 싶을 수도 있습니다. 온라인으로 하나의 버전을 찾았습니다 : http://svn.dslinux.org/viewvc/dslinux/branches/bsdgames_branch/user/games/bsdgames/wtf/acronyms?revision=565&view=markup&pathrev=565 –