n-gram

    0

    2답변

    나는 약 10^5 영어 단어와 그 초기 빈도 목록이 있습니다. 나는 단어의 완성을 제안하는 프로그램을 쓰고 싶다. 최대 숫자는 k이다. 주어진 접두어로 시작하여 빈도의 내림차순으로 정렬된다. 데이터 구조는 단어의 빈도 카운트를 1 씩 업데이트 할 수 있어야합니다 (단어가 사용될 때마다). 접두어로 '지점을 인식'을 감안할 때 예 - 를 들어 및 k = 3,

    2

    2답변

    필드를 nGram 및 'exact'일치 항목으로 매핑하려고합니다. 검색 결과에서 정확한 일치 항목을 먼저 표시하려고합니다. 이것은 answer to a similar question이지만 작동하게하기 위해 고심 중입니다. 내가 '정확한'입력란에 지정한 부스트 값에 상관없이 나는 매회 동일한 결과를 얻습니다. "name" : { "type" : "m

    0

    2답변

    유니 코드 문자가있는 텍스트 파일에 대해 다음을 수행 할 수 있습니까? 중국어/일본어 : with io.open(infile, 'r', encoding='utf8') as fin: words = re.findall('\w+', fin.read()) x = Counter(zip(words,words[1:])) print x 내가 시도

    15

    3답변

    나는 3,000,000 라인의 거대한 파일을 가지고 있고 각 라인은 20-40 단어를 가지고있다. 코퍼스에서 1 ~ 5 ngram을 추출해야합니다. 현재 This is a foo bar sentence . There is a comma , in this sentence . Such is an example text . , 나는 다음과 같이 그 일을하

    11

    1답변

    저는 2 일 연속으로 대안을 찾으려고 노력해 왔으며 관련있는 것을 찾지 못했습니다. 저는 기본적으로 합성 문장의 확률 적 점수를 얻으려고합니다. (코퍼스에서 추출한 원래 문장의 일부 단어를 대체하여 합성됩니다.) 나는 Collocations를 시도했지만 점수는별로 도움이되지 않습니다. 그래서 언어 모델 개념을 사용하려고 시도했습니다. 단지 도움이되는 모듈

    -1

    1답변

    저는 검색 엔진에 N 그램을 통합해야하며 lucene 4.4를 검색 엔진으로 사용해야합니다. 기본적으로 NGram을 배우는 데 어려움을 겪고 있습니다. 몇 가지 간단한 단계를 통해 나를 도울 수 있습니까? 미리 감사드립니다.

    0

    1답변

    Solr을 사용하여 코퍼스를 만들려고합니다. 나는 "content"라는 필드를 가지고 있으며 bigram과 trigram을 색인하고 검색해야합니다. 또한 기본 검색을 사용하여 색인을 생성하고 검색해야합니다. 어떻게 구성합니까?

    2

    1답변

    OCR에서 스캔 한 문서의 오류를 수정하는 프로젝트를 진행 중이고 R이있는 n 그램을 사용합니다. 내 알고리즘은 알고있는 코퍼스를 사용하여 먼저 훈련됩니다. 혼란을 만들기위한 실수 3 그램의 행렬. 그래서 특정 3-gram을 가지고있을 때 실수가있을 때 대체 할 가장 가능성이있는 것은 무엇일까? 3-gram. library(tau) library(tm)

    0

    2답변

    저는 PHP를 사용하여 많은 데이터 처리 작업을 수행합니다 (다른 언어 및/또는 기술을 사용해야하는 곳으로 나가고 있음을 알고 있음). 메모리로 찾는 ngram을 포함하는 배열을로드하는 PHP 프로세스로 엔티티 추출을하고 있습니다. 이 어레이는 3GB의 메모리를 사용하며 프로세스를 시작할 때마다로드하는 데 20 초 정도 걸립니다. 한 번 로컬 컴퓨터에서 생

    2

    1답변

    나는 의미 론적으로 올바른 순열을 만들어야하는 200 단어의 목록을 가지고 있습니다. 불행히도, 그 크기의 목록을 순열하면 1 조 개의 순열 (permutations)과 같은 것이 될 것입니다. 내가 계획하고있는 것은 Microsoft Web Ngram 서비스와 yield 함수를 사용하여 특정 임계 값 이상의 공동 점수를 갖는 내 순열 내에서 ngram을