text-analysis

14열

2답변

나는 이미 similar question을 요청했지만 큰 제약이 있음을 알았습니다. 태그 (키워드)를 생성하기 위해 사용자 트윗과 같은 작은 텍스트 세트를 작업하고 있습니다. 그리고 받아 들여진 제안 (point-wise mutual information algorithm)은 더 큰 문서에서 작동하기위한 것입니다. 이 제한 사항 (작은 텍스트 세트 작업)을

0열

2답변

키워드 분석기

키워드 경쟁을 해결하기위한 알고리즘이나 PHP 코드를 알고 싶습니다. 이 키워드는 웹 사이트 당 여러 사이트와 여러 웹 사이트에서 사용할 수 있습니다. 나는 그 순위가 어떻게 될 수 있는지 알고 싶다. 감사합니다.

13열

2답변

NLP : 양적 "긍정적"대 "부정적인"문장

"긍정적"대 "부정적인"산업별 문장 (즉, 영화 리뷰)을 분석하는 최선의 방법을 결정하는 데 도움이 필요합니다. 전에 OpenNLP와 같은 라이브러리를 보았습니다.하지만 너무 저급입니다. 기본적인 문장 구성 만 제공합니다. 내가 필요로하는 것은 상위 레벨의 구조입니다 : - 잘하면 단어 목록으로 - 내 데이터 집합에 희망적으로 훈련 가능합니다 고마워요!

0열

2답변

많은 기사에 대한 단어 목록 - 문서 용어 행렬

터키어로 150,000 개가 넘는 기사가 있습니다. 나는 자연 언어 처리 연구를위한 기사를 사용할 것이다. 기사 처리 후 기사당 단어 및 빈도를 저장하고 싶습니다. 이제 RDBS에 저장하고 있습니다. -> article_id를, 텍스트 단어 -> word_id, 유형, 단어 단어 - 조 -에> word_id에 대한 ID, word_id, article_id

1열

2답변

가능성이있는 영어 단어 경계에서 문자열 쪼개기

최근에 일본어 간지 사전을 처리하기 위해 Adobe Acrobat Pro의 OCR 기능을 사용했습니다. 출력물의 전반적인 품질은 일반적으로 내가 기대했던 것보다 약간 나아졌지만 텍스트의 영어 부분의 단어 경계는 종종 사라졌습니다. 예를 들어, 여기 내 파일에서 한 줄의 : softening;weakening(ofthemarket)8 CHANGE [trans

3열

1답변

효율적인 키워드 검색/추출. 미리 정의 된 키워드 집합

문자열과 관련성이있는 키워드를 효율적으로 추출하려면 어떻게합니까? 내 키워드 목록은 미리 정의되어 있습니다. 예를 들어 Michelle Obama에 대한 기사에서도 Barack Obama에 대해 언급 한 결과 Michelle Obama과 Barack Obama을 키워드 Michelle Obama (키워드 목록에 Michelle Obama 및 Barack O