단락에서 간단한 문장을 추출하는 데 사용할 수있는 알고리즘이 있습니까? 내 궁극적 인 목표는 나중에 작성된 간단한 문장에 대해 다른 알고리즘을 실행하여 작성자의 정서를 결정하는 것입니다. 나는 Chae-Deug Park와 같은 출처에서 이것을 연구했지만 아무도 간단한 데이터를 훈련 자료로 준비하는 것에 대해서는 논의하지 않고있다. 사전
2 HTML 소스가 주어지면, 먼저 this 같은 것을 사용하여 주요 컨텐츠를 추출하고 싶습니다. other better libraries이 있습니까? 특히 파이썬/자바 스크립트를 찾고 있습니까? 두 개의 추출 된 콘텐츠가 있으면 0과 1 사이의 점수를 반환하여 해당 콘텐츠가 얼마나 유사한 지 나타냅니다. CNN과 BBC의 동일한 주제에 대한 뉴스 기사는
텍스트에서 날짜 (일, 월, 년)를 추출하는 방법을 찾고 있습니다. 즉, 필자는 인간이 작성한 문자열에서 모든 날짜를 (또는 오히려 가능한 한 많이) 찾고 싶습니다. 가능한 한 많은 형식을 포함하는 파이썬 정규 표현식이 있습니까? 코멘트 : from dateutil.parser import parse
parse(s, fuzzy = True)
가 잘 작
DirSource를 사용하여 디렉토리에서 생성 된 R에 corpus x가 있습니다. 각 문서는 관련된 vBulletin 포럼 웹 페이지의 전체 HTML을 포함하는 텍스트 파일입니다. 스레드이므로 각 문서에는 XPath로 캡처하려는 여러 개의 별도 게시물이 있습니다. XPath는 작동하는 것처럼 보이지만 캡처 한 모든 노드를 다시 코퍼스에 넣을 수는 없습니다
단어 의미 - 유사성 측정을 제공하는 웹 서비스가 있습니까? 나는 Disco을 알고 있지만 지속적인 성장 기반을 갖춘 서비스를 선호합니다 (프로젝트에서 시도한 경우 가장 유용 할 것입니다). WordNet 기반 알고리즘도 알고 있지만 프로젝트 리소스의 일부로 설치 및 관리하는 것이 큰 도움이됩니다. 미리 감사드립니다.
내가 몇 가지 조사를하고 있어요 "이름"나는 아파치 두싯와 함께 연주하고있어 0.6 내 목적은 사용자 입력을 기반으로 문서의 서로 다른 범주의 이름을하는 시스템을 구축하는 것입니다 . 문서는 미리 알려지지 않았으므로이 문서를 수집하는 동안 어떤 범주를 가지고 있는지도 알지 못합니다. 그러나 모델의 모든 문서는 사전 정의 된 범주 중 하나에 속해야한다는 것을
저는 사람들의 이름, 기술 등에 관한 데이터가 포함 된 약 .docx 문서 (이력서)가 있습니다. 스프레드 시트에이 정보 중 일부를 채워야하고 수동 작업을 줄이기 위해 텍스트 마이닝 방식을 사용할 수 있다고 생각했습니다. 이러한 문서에서 마이닝 (반 구조화 된 종류의 정보)에 유용한 도구 나 접근법이 있습니까?
자동 동의어 찾기 알고리즘 (주로 브랜드 이름 용)을 만들고 싶습니다. 예를 들어 사용자가 "Coca cola"라는 단어를 입력하면 "Coke"라는 단어를 반환하고 싶습니다. 위의 내용은 위임장을 사용하여 쉽게 수행 할 수 있습니다. 그러나 나는 그것을위한 dictonary 파일을 필요로한다. 어떻게 자동으로 만들 수 있습니까? (나는 1 백만 + 레코드가
텍스트에서 특정 패턴을 찾는 방법을 찾고 있습니다. 예를 들어이 같은 형식의 텍스트에서 모든 참조를 찾을하려는 경우 : 그것은 향하고 어떻게 영어의 진화 및 그 루트 리지 : 남작, 나오미 (2000) 알파벳 이메일로 런던과 뉴욕. 그래서 이와 비슷한 내용이 입력 텍스트에서 반환됩니다. 거기에 좋은 어떤 알고리즘이 있습니다. 지금까지 텍스트에서 유사한 문자
매우 많은 수의 문서에서 주제 인기를 추적하려고합니다. 또한, 일반적인 단어 모음집 대신 주제를 기반으로 사용자에게 권장 사항을 제시하고자합니다. 주제를 추출하려면이 게시물의 요점을 넘어서는 자연어 처리 기술을 사용하십시오. 제 질문은이 데이터를 유지해야하는 방법입니다. I) 각 주제에 대한 인기 급상승 데이터를 신속하게 가져올 수 있습니다. 원칙적으로 사