inverted-index

    0

    1답변

    두 코퍼스 (코퍼스 1 & 코퍼스 2), 코퍼스 1의 문서에는 코퍼스 2의 표절 된 문장이 들어 있습니다. Tf-Idf 방식을 사용하여 코퍼스 1의 문서 코퍼스 2의 용어에 대한 역 인덱스가 구축 된 2 코퍼스의 문서에 대해,로는 다음과 같습니다 곧, 각 두 문장 '비교를 위해, 나는 두 개의 TF - IDF 벡터를 구축 전 코사인 유사성을 사용하여 유사성

    0

    1답변

    I는 다음과 같이 말과 글에서의 주파수가 저장되는 반전 된 인덱스를 저장하기 위해 카산드라를 사용할 필요가 이 역 색인을 저장하려면 Cassandra 노드 수 = 2입니다. 단어의 첫 번째 문자를 Partition 키 또는 단어 자체로 사용하는 것이 더 낫습니까? 기본 키는 어떻게됩니까?

    0

    1답변

    Elastic/Lucene은 분석되지 않은 필드로 무엇을합니까? 그것은 그 필드 값에 대해 역 색인 또는 위치를 만들 필요가 없습니다 (상상할 것입니다). 그 값을 기록하면 되나요? 나는 한 용어 만 사용하여 역 색인을 만든다고 생각합니다. 그리고 용어의 위치는 항상 필드의 시작과 필드의 끝 부분에 고정됩니다. 그게 정확한 것 같니?

    -1

    1답변

    지도 반전의 일부로 역변환을 구현하려고합니다. 첫 번째 부분은 완료 할 수있었습니다 (매퍼). 단어가 발견 : 첫 번째 부분의 출력은 내가 솔루션 아래에 도착하기 위해 노력하고있어 word frequency document ------------------------------ tire 1 car headlight 1 shop tire

    0

    2답변

    MS 액세스 데이터베이스에서 테이블로 빌드 한 내 역방향 인덱스에 많은 양의 레코드를 삽입하려고합니다. 이 테이블 디자인 (ID, 전송 용어, 문서는, 화합물 기본 키)입니다 : 이 코드입니다 : 무엇 java.lang.StackOverflowError at java.nio.DirectByteBuffer.put(DirectByteBuffer.java:29

    0

    2답변

    위의 https://spacy.io/ 라이브러리를 사용하여 파이썬에서 역 색인을 작성하여 토큰 화하려고합니다. 사전 처리를 동시에 수행하고 인덱싱 할 준비가 된 멋진 문서 목록을 만드는 좋은 예가됩니다. 지금까지 이해하지 못하는 어떤 texts = [u'One document.', u'...', u'Lots of documents'] # .pipe str

    0

    1답변

    나는 각 토큰이 (document_id, score) 쌍의 목록에 매핑되는 역 색인을 가지고 있습니다. 각 토큰의 값 목록은 내림차순 점수로 정렬되므로 가장 높은 순위의 문서가 먼저옵니다. 불행히도, 문서에서 토큰의 컨텍스트를 기준으로 점수가 조정되므로 모든 토큰에 대해 sorted-by-id가 동시에 정렬되도록 보장하는 것은 불가능합니다. 예를 들어 내

    1

    1답변

    전체 텍스트 검색을 지원하려면 필드 ID와 msg를 lucene에 저장합니다. 사용자가 키워드를 입력하면 lucene은 검색을 수행하고 결과를 표시하고 사용자가 저장된 ID를 사용하여 키워드를 클릭하면 DB에서 결과를 가져 와서 표시 할 세부 정보를 엽니 다. lucene은 전체 msg 필드 대신 msg 필드에 역 색인을 저장하고 결과를 표시하기 위해 DB

    1

    1답변

    제 생각에 따르면 Lucene은 역 색인을 사용합니다. 내가 루씬 6.xx의를 사용하고 난 어떤 쉬운 방법에 대해 확실하지 오전하지만 해결책이없는 것보다 낫다 term1 <doc1, doc100, ..., doc555> term1 <doc1, ..., doc100, ..., do89> term1 <doc3, doc2, doc5, ...> . . .

    0

    1답변

    요즘 나는 정보 검색 (텍스트 검색에 관한 연구)을 연구합니다. 와 나는 검색 엔진을 만들고 싶다. 하지만 Inverted Index 및 Vector Space Model (부울 모델 등 ... 문서를 벡터로 표현하는 것)에 대해 혼란 스러웠습니다. Inverted Index는 벡터 공간 모델의 선택적 기능입니다. 색인 생성 모델은 용어 (또는 단어)를보다