text-analysis

    -1

    2답변

    .txt 파일을 .cat 파일로 변환하는 데 문제가 있습니다. 단어를 카테고리로 구분하는 사전 (LIWC2007 italian)입니다. WordStat 6.1에서로드해야합니다. WordStat 사전을로드 할 때 어떤 non.cat 파일을 볼 수 없습니다. 어떻게 파일을 변환합니까? 웹에서 보는 것은 도움이되지 않았습니다. 미리 감사드립니다.

    0

    1답변

    단어 일치에 사용되는 사전 파일이 있습니다. 자바 코드가 온라인으로 제출되어 실행됩니다. (온라인 코딩 경쟁 용) 어떻게 사전을 사용할 수 있습니까? 데이터 파일, 내 프로그램을 온라인으로 실행하는 동안. 압축 된 바이트 스트림으로 소스 코드에 임베드 될 수 있습니까?

    2

    2답변

    저는 사전 처리를 시도하고 있습니다. 따라서 dont 등의 단어는 간단하게하지 않으려 고합니다. 나는 nltk가 편리한 것을 발견하지 못했음을 확인했다. 고유 명사의 사용에 대한 좋은 대답을 나는 조회의 원유 방법을 사용할 수 있지만, 문제는 일 등 초기의 질문 Expanding English language contractions in Python 나던을

    0

    1답변

    문장이 질문 요청이거나 작업 라벨이 여러 라벨 분류 (감독)를 사용하고 있다면 추출하려고합니다. 기능, 나는 현재 단어의 가방 (trigram 모델), 모달 동사/질문 단어 등을 사용하고 있습니다. 아주 좋은 결과를 산출하지 못하고 있습니까? 예 : 오늘 받으실 수 있습니까? 다음 품목이 필요합니다.

    -1

    2답변

    나는 자신의 주제를 기반으로 트위터 해시 태그의 무리를 클러스터 찾고 있어요. 동일한 주제와 관련된 모든 해시 태그는 동일한 클러스터 아래로 이동합니다. 나는 인기 있고 효율적인 어떤 파이썬 기반 라이브러리를 찾고 있었다. 또한 알고리즘을 결합하기 위해 고려해야 할 알고리즘에 대한 제안을 원합니다.

    6

    1답변

    나는 지난 며칠 동안 내 머리를 아프게했습니다. 나는 모든 SO 아카이브를 검색하고 제안 된 솔루션을 시도했지만이 작업을 수행 할 수없는 것 같습니다. 나는 2000 년 6 월, 1995 -99 년 등과 같은 폴더에 txt 문서 세트를 가지고 있으며 문서 용어 행렬 및 용어 문서 행렬을 만들고 단어의 일부 위치 기반 공동 위치를 만드는 것과 같은 기본적인

    0

    2답변

    빠른 광부를 사용하여 특정 영화에 대한 리뷰를 분석하고 있습니다. IMDB에서 리뷰를 추출하기 위해 "getpages"를 사용했습니다. 사이트에 약 94 개의 리뷰가 나열되어 있지만 추출한 후에는 21 개 밖에 나오지 않습니다. xml 코드는 다음과 같습니다. <?xml version="1.0" encoding="UTF-8" standalone="no"?>

    0

    1답변

    모바일 플랫폼에 주로 사용자 생성 콘텐츠로 구성된 약 6GB 크기의 문서 자료가 있습니다. 이 코퍼스의 원산지 특성으로 인해 철자가 틀린, 축약되고 잘린 단어가 만연해 있습니다. 이 단어들을 가장 가까운 영어 단어로 자동 고칠 수있는 방법이 있습니까?

    -1

    2답변

    몇 가지 단어 계산 알고리즘을 사용했고 더 자세히 살펴보면 원래 텍스트보다 적은 단어를 얻었 기 때문에 궁금합니다. 예를 들어 "it 's"를 한 단어로 계산했기 때문입니다. 그래서 해결책을 찾고자했지만 어떤 성공도 없었습니다. 그래서 나는 "그것의 것"과 같은 "짧은 단어"를 "기본 단어"로 변형시키는 것이 존재하는지, "그것이 있습니다"라고 스스로에게

    1

    1답변

    나는 기사 모음을 가지고 있으며 각 기사에서 개념을 추출하려고합니다. 개념은 독립적이거나 새로운 개념을 형성하기 위해 함께 연결될 수 있습니다. 최근에는 다양한 유료 API (예 : DEMAND (http://www.autonomy.com/technology/idol-functions/conceptual-search), 데이터 조화 (http://www.d