text-mining

    4

    2답변

    단락에서 간단한 문장을 추출하는 데 사용할 수있는 알고리즘이 있습니까? 내 궁극적 인 목표는 나중에 작성된 간단한 문장에 대해 다른 알고리즘을 실행하여 작성자의 정서를 결정하는 것입니다. 나는 Chae-Deug Park와 같은 출처에서 이것을 연구했지만 아무도 간단한 데이터를 훈련 자료로 준비하는 것에 대해서는 논의하지 않고있다. 사전

    3

    1답변

    2 HTML 소스가 주어지면, 먼저 this 같은 것을 사용하여 주요 컨텐츠를 추출하고 싶습니다. other better libraries이 있습니까? 특히 파이썬/자바 스크립트를 찾고 있습니까? 두 개의 추출 된 콘텐츠가 있으면 0과 1 사이의 점수를 반환하여 해당 콘텐츠가 얼마나 유사한 지 나타냅니다. CNN과 BBC의 동일한 주제에 대한 뉴스 기사는

    1

    2답변

    텍스트에서 날짜 (일, 월, 년)를 추출하는 방법을 찾고 있습니다. 즉, 필자는 인간이 작성한 문자열에서 모든 날짜를 (또는 오히려 가능한 한 많이) 찾고 싶습니다. 가능한 한 많은 형식을 포함하는 파이썬 정규 표현식이 있습니까? 코멘트 : from dateutil.parser import parse parse(s, fuzzy = True) 가 잘 작

    0

    1답변

    DirSource를 사용하여 디렉토리에서 생성 된 R에 corpus x가 있습니다. 각 문서는 관련된 vBulletin 포럼 웹 페이지의 전체 HTML을 포함하는 텍스트 파일입니다. 스레드이므로 각 문서에는 XPath로 캡처하려는 여러 개의 별도 게시물이 있습니다. XPath는 작동하는 것처럼 보이지만 캡처 한 모든 노드를 다시 코퍼스에 넣을 수는 없습니다

    1

    1답변

    단어 의미 - 유사성 측정을 제공하는 웹 서비스가 있습니까? 나는 Disco을 알고 있지만 지속적인 성장 기반을 갖춘 서비스를 선호합니다 (프로젝트에서 시도한 경우 가장 유용 할 것입니다). WordNet 기반 알고리즘도 알고 있지만 프로젝트 리소스의 일부로 설치 및 관리하는 것이 큰 도움이됩니다. 미리 감사드립니다.

    1

    1답변

    내가 몇 가지 조사를하고 있어요 "이름"나는 아파치 두싯와 함께 연주하고있어 0.6 내 목적은 사용자 입력을 기반으로 문서의 서로 다른 범주의 이름을하는 시스템을 구축하는 것입니다 . 문서는 미리 알려지지 않았으므로이 문서를 수집하는 동안 어떤 범주를 가지고 있는지도 알지 못합니다. 그러나 모델의 모든 문서는 사전 정의 된 범주 중 하나에 속해야한다는 것을

    -2

    2답변

    저는 사람들의 이름, 기술 등에 관한 데이터가 포함 된 약 .docx 문서 (이력서)가 있습니다. 스프레드 시트에이 정보 중 일부를 채워야하고 수동 작업을 줄이기 위해 텍스트 마이닝 방식을 사용할 수 있다고 생각했습니다. 이러한 문서에서 마이닝 (반 구조화 된 종류의 정보)에 유용한 도구 나 접근법이 있습니까?

    0

    1답변

    자동 동의어 찾기 알고리즘 (주로 브랜드 이름 용)을 만들고 싶습니다. 예를 들어 사용자가 "Coca cola"라는 단어를 입력하면 "Coke"라는 단어를 반환하고 싶습니다. 위의 내용은 위임장을 사용하여 쉽게 수행 할 수 있습니다. 그러나 나는 그것을위한 dictonary 파일을 필요로한다. 어떻게 자동으로 만들 수 있습니까? (나는 1 백만 + 레코드가

    0

    1답변

    텍스트에서 특정 패턴을 찾는 방법을 찾고 있습니다. 예를 들어이 같은 형식의 텍스트에서 모든 참조를 찾을하려는 경우 : 그것은 향하고 어떻게 영어의 진화 및 그 루트 리지 : 남작, 나오미 (2000) 알파벳 이메일로 런던과 뉴욕. 그래서 이와 비슷한 내용이 입력 텍스트에서 반환됩니다. 거기에 좋은 어떤 알고리즘이 있습니다. 지금까지 텍스트에서 유사한 문자

    3

    2답변

    매우 많은 수의 문서에서 주제 인기를 추적하려고합니다. 또한, 일반적인 단어 모음집 대신 주제를 기반으로 사용자에게 권장 사항을 제시하고자합니다. 주제를 추출하려면이 게시물의 요점을 넘어서는 자연어 처리 기술을 사용하십시오. 제 질문은이 데이터를 유지해야하는 방법입니다. I) 각 주제에 대한 인기 급상승 데이터를 신속하게 가져올 수 있습니다. 원칙적으로 사