0
Common Crawl
에서 "English"웹 페이지를 읽으려고합니다. 나는 Hadoop
작업을 Amazon 인터페이스에서 실행하고 있습니다. 매퍼 (Mapper) 부분 인 다음 코드를 살펴보십시오. 나는 감속재가 없다.Hadoop : "English"페이지 만 읽기
#!/usr/bin/php
<?php
$word2count = array();
$counter = 0;
$closeit = false;
while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) {
$counter++;
$line = strtolower(trim($line));
echo "$line\n";
if($counter > 100)
{
$closeit = true;
}
}
echo "mapper1\n";
?>
여기에서이 코드는 기사의 처음 100 줄을 읽습니다. 이렇게하면 "영어"기사 만 읽을 수 있도록 어떻게 변경할 수 있습니까? 그 외에도 어떤 데이터 세트를 사용해야합니까?
도와주세요.