(선호하는 PHP에서) n 그램으로 일부 응용 프로그램을 구현하고 싶습니다. 어떤 유형의 n 그램이 대부분의 목적에 더 적합합니까? 단어 수준 또는 문자 수준 n-gram? PHP로 n-gram-tokenizer를 어떻게 구현할 수 있습니까? 먼저 N 그램이 정확히 무엇인지 알고 싶습니다. 이 올바른지? 그것은 n 그램을 이해하는 방법입니다. 문장 : "나
희귀 한 입력 문서에 OOM 오류가 발생하는 NLP 라이브러리 (Stanford NER)를 사용하고 있습니다. 결국이 문서를 격리하여 오류의 원인을 파악할 수 있지만이 작업은 어렵습니다. (하둡에서 실행 중이므로 오류가 179 % 또는 379/500으로 발생합니다. 그와 비슷한 것). 중간 솔루션으로, 나는이 특정 호출에 CPU 및 메모리 제한을 적용 할
정상적인 날짜 시간이 걸리고 적절한 사람이 읽을 수있는 날짜를 만들 수있는 라이브러리 (선호하면 DateTime - esque)가 있는지 알고 싶습니다. 더 일반적인 질문의 본질적으로 반대 : How can I parse relative dates with Perl?. 명백히 정확한 표현/해석은 실제 구현에 달려 있지만, 앞으로 날짜를 지정하는 일관된 방법
우리는 WinForms 응용 프로그램 (VS2008과 함께 .NET 2.0을 대상으로 함)을 개발했으며, 다른 언어 (영어 이외의 언어)로 사용하기 위해 지역화해야한다는 것을 알았습니다. 또 다른 응용 프로그램은 세계화 (자원 사용)에 대한 Paint.NET의 생각을 빌려 왔지만, 우리가 이것을 자동화 할 수있는 도구가 있는지 궁금합니다. 무료입니다. 좋은
URL을 사용하여 웹 사이트 페이지에서 사용하는 자연어를 자동으로 결정하는 방법을 찾고 있습니다. 파이썬에서 , 함수와 같은 : 언어 지정자를 반환 def LanguageUsed (url):
#stuff
(영어 예를 들어 '엉'일본어 'JP'등) 결과의 요약 : code from the PyPi for oice.langdet을 사용하여 Pyth
문서 묶음의 단어 위치를 색인화하는 표가 있습니다. 세트에서 가장 일반적인 bigram을 식별하고 싶습니다. 어떻게 하시겠습니까? MSSQL 2008? 테이블의 구조는 다음과 같습니다 LocationID -> DocID -> WordID -> Location
나는 복잡한 어떤 종류의 일을하려고에 대해 생각하는 것은 참여 ... 그리고 난 그냥 내 머리를