정보 검색을 위해 Manning 서적을 검토 중입니다. 현재 코사인 유사성에 대한 부분입니다. 한 가지는 명확하지 않습니다. 내가 쿼리와 문서에 대한 tf-idf 벡터가 있다고 가정 해 보겠습니다. 두 벡터 사이의 코사인 유사성을 계산하고 싶습니다. 문서 벡터의 크기를 계산할 때 벡터에있는 모든 용어의 제곱 또는 전체 쿼리의 용어의 합을 계산합니까? 다음은
저는 NLP 및 IR 프로그램을 처음 사용합니다. 깊은 NLP 파이프 라인, 즉 Lemmatizing, Dependency Parsing 기능을 문장 인덱싱에 추가하려고합니다. 다음은 내 스키마 및 검색 자입니다. my_analyzer = RegexTokenizer()| StopFilter()| LowercaseFilter() | StemFilter() |
BBC_news_home.html이라는 파일이 있습니다. 모든 마크 업 태그를 제거해야하므로 남은 Im은 일부 텍스트입니다. 지금까지 내가 가지고 : def clean_html(html):
cleaned = ''
line = html
pattern = r'(<.*?>)'
result = re.findall(pattern, line, re
의사 결정 트리 분류자를 구축 중이며 정보 획득을 계산하는 방법을 찾았습니다. 이것은 바보 같은 질문 일지 모르지만이 방법의 분할이 숫자 또는 범주 속성인지 궁금합니다. 나는 임계 값 (중간 값)이 숫자 스플릿에 사용되었다고 생각했기 때문에 혼란 스럽다. 그러나이 방법은 문자열 값을 사용한다. 도움을 주시면 감사하겠습니다. 당신이 향하고 코드는 코멘트를 보
안녕하세요 저는 Solr 정보 새로 고침 시스템 을 사용하고 Solr에 텍스트 파일을 추가하고 다른 언어의 Solr 정확도를보기 위해 파일을 단어 형식으로 검색하려고합니다. 확실하지. 검색을위한 UI가 있지만 사용 방법을 알지 못하고 데이터 가져 오기 처리기가 있지만 XML, CSV 또는 JSON이어야하며 텍스트 파일을 원하지만 사용하지 않을 수도 있습니다
NDCG를 사용하여 상위 -k 범위 쿼리를 평가합니다. 공간 영역과 쿼리 키워드가 주어지면 내 top-k 범위 쿼리는 주어진 영역에서 쿼리 키워드와 관련된 텍스트 인 k 개의 문서를 반환해야합니다. 내 시나리오에서 범위 쿼리는 대개 하나의 문서 만 반환하는 것으로 찾습니다. 그러나이 쿼리를 동일한 키워드로 주어진 영역에서 더 많은 개체를 찾을 수있는 다른
구조화되지 않은 텍스트에서 일부 정보를 추출하고 싶습니다. 예를 들어 내 텍스트는 "제어 뉴욕 온도 39에서"입니다 내가 원하는 정보는 ("컨트롤", "아래", "뉴욕", "온도", "39"). 결과 정보에는 조치를 나타내는 "control", 조치 대상을 나타내는 "NewYork", 표시기 인 "temperature"및 범위를 나타내는 "39 미만"이 있