2014-01-08 1 views
0

Common Crawl에서 "English"웹 페이지를 읽으려고합니다. 나는 Hadoop 작업을 Amazon 인터페이스에서 실행하고 있습니다. 매퍼 (Mapper) 부분 인 다음 코드를 살펴보십시오. 나는 감속재가 없다.Hadoop : "English"페이지 만 읽기

#!/usr/bin/php 
<?php 

$word2count = array(); 
$counter = 0; 
$closeit = false; 

while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) { 
    $counter++; 
    $line = strtolower(trim($line)); 
    echo "$line\n"; 
    if($counter > 100) 
    { 
    $closeit = true; 
    } 
} 

    echo "mapper1\n"; 


?> 

여기에서이 코드는 기사의 처음 100 줄을 읽습니다. 이렇게하면 "영어"기사 만 읽을 수 있도록 어떻게 변경할 수 있습니까? 그 외에도 어떤 데이터 세트를 사용해야합니까?

도와주세요.

답변

0

줄을 읽은 후 언어 감지기를 사용할 수 있습니다. 다음은 PHP에서 수행하는 방법을 묘사 한 코드입니다. http://phpir.com/language-detection-with-n-grams 영어를 포함하여 특정 언어를 감지하도록 이미 구성되어 있습니다.