word-count

0열

1답변

일부 상형 문자 언어의 단어 계산에 사용할 수있는 라이브러리가 있습니까 (예 : 중국어, 일본어, 한국어 ...)? MS Word가이 언어의 텍스트를 효과적으로 계산한다는 것을 알았습니다. 이 기능을 구현하기 위해 .NET 응용 프로그램에서 MS Word 라이브러리에 대한 참조를 추가 할 수 있습니까? 또는이 목적을 달성하기위한 다른 해결책이 있습니까?

3열

4답변

단순한 Hadoop Map에 오류가 발생했습니다.

hadoop 맵을 실행 해 보았습니다. 단어 수를 줄였습니다. HDFS와 모든 것을 올바르게 알고 있습니다. 간단한 단어 수의 문제를 실행하는 동안 내가 그것을 실행, 나는이 오류가 발생합니다. 나는 Hadoop을 처음 사용합니다. 이 문제를 해결하는 방법에 대한 도움을 주시면 감사하겠습니다. 13/06/13 20:21:17 INFO input.FileIn

0열

1답변

doc 및 docx 파일의 단어 개수

.doc 및 .docx 파일의 단어 수를 계산하고 싶습니다. $file_upload = 'test.docx'; $zip = new ZipArchive; $file_content = " "; if ($zip -> open($file_upload) === true) { if (($index = $zip -> locateName("word/doc

0열

1답변

mapreduce 프레임 워크에서 각 저자의 최상위 단어 수를 계산합니다.

파일 모음이 있는데 각 파일에는 작성자 이름과 사용 단어가 들어 있습니다. 이제 각 저자의 상위 N 단어를 계산하기 위해 map-reduce 코드를 작성하려고합니다. 까다로운 부분은 파일에 여러 명의 작가가 포함되어있을 수 있습니다. 내 map-reduce 프레임 워크를 어떻게 설계해야합니까? 의사 코드와 약간의 설명으로 충분합니다. 감사합니다

1열

2답변

누군가이 Python 코드를 설명 할 수 있습니까?

누군가이 Python 코드를 더 잘 설명 할 수 있습니까? 나는 내가 할 수있는 언급,하지만 확실하지 않은 권리를 메신저 시도한이 from collections import Counter ignore = ['the','a','if','in','it','of','or', 'to','for','is','and','are'] file = raw_input

1열

1답변

Apache Tika를 사용하여 텍스트를 추출한 다음 보조 단어를 제거한 후 자주 단어를 가져 오는 것

Tika와 lucene을 사용하여 sample.pdf 파일의 텍스트를 추출한 다음 단어를 제거하려고 시도한 다음 텍스트에서 나머지 단어 (단어 제외)의 단어 수를 구합니다. . 내 sample.pdf는 포함 아래 This is java related information it contains java prg. 는 String[] stopwords ={"

1열

1답변

열기 : 잘못된 모드 또는 파일 이름

이것은 단어 수를 계산하는 프로그램입니다. 어떻게 더 단순하게 만들 수 있을까요? import re from collections import Counter with open('C:\Data\test.txt') as f: passage = f.read() words = re.findall(r'\w+', passage) cap_words = [

5열

5답변

유니 코드 문자열에서 단어 수 가져 오기 (모든 언어에서)

문자열에서 단어 수를 가져 오려고합니다. 그것만큼이나 간단합니다. 캐치는 문자열이 예측할 수없는 언어 일 수 있다는 것입니다. 그래서, 나는 다음과 같은 샘플 출력 서명 int getWordCount(String)의 기능을 필요 - getWordCount("供应商代发发货") => 7 getWordCount("This is a sentence") => 4

0열

2답변

hadoop textinputformat 파일 당 하나의 행만 읽음

hadoop 0.20.2에 대한 간단한 맵 작업을 작성했으며 입력 데이터 세트는 44 개의 파일로 구성되어 있으며 각각은 약 3-5MB입니다. 모든 파일의 각 행은 int,int 형식입니다. 입력 형식은 기본값 인 TextInputFormat이고 매퍼의 작업은 입력으로 Text을 구문 분석하여 정수로 변환하는 것입니다. 작업을 실행 한 후 hadoop 프레

1열

1답변

매우 느리게 실행되는 Hadoop mapreduce

xenserver에 vms로 설치된 1.1.2 버전의 4datanode/1namenode hadoop 클러스터를 사용하고 있습니다. 1GB의 텍스트 파일을 가지고 있으며 단어 개수를 시도했습니다. 지도는 2 시간이 걸렸으며 감속기가 멈추었습니다. 보통 펄 스크립트가 10 분 안에 작업을 마쳤습니다. 내 설정에서 뭔가 빠져있는 것처럼 보입니다. Kbs의 작은