I 돼지의 행 수를 계산하는 방법을 보여주는 This Stack Over Flow question이 나옵니다.돼지의 행 수를 계산하는 더 빠른 방법
내가 발견 한 문제는 필터링 된 변수의 행을 계산하기 전에 일부 정규식 필터 일치 및 다른 작업을 수행 할 때이 작업은 엄청나게 오래 걸린다는 점입니다. 여기
빠른 결과를 얻을 수있는 방법이있다,
all_data = load '/logs/chat1.log' USING TextLoader() as line:chararray;
match_filter_1 = filter all_data by (line matches 'some regex');
inputGroup = GROUP match_filter_1 ALL;
totalLine = foreach inputGroup generate COUNT (match_filter_1);
dump totalLine;
그래서 내 코드?
데이터 –
의 크기 무엇인지 지금은 2기가바이트 같은 데모 데이터 크기입니다. –