누군가가 Java 내에서이 작업을 수행 할 수 있는지 궁금합니다. zcat -f -- $(ls -t a_log_file.log*) > combined.log
a_log_file.log이 , a_log_file.log.gz.1, a_log_file.log.gz.2 ... 차라리 복잡한하지 않습니다 아무것도 찾을 수가 없었다. 나는 또한 어떻게 든 자바에서
asyncio를 사용하여 네트워크를 통해 큰 로그 파일을 스트리밍하고 싶습니다. 데이터베이스에서 데이터를 검색하여 형식을 지정하고 python의 zlib을 사용하여 압축 한 다음 네트워크를 통해 스트리밍합니다. 다음 는 기본적으로 내가 사용하는 코드입니다 : @asyncio.coroutine
def logs(requests):
# ...
100mil 행 * .gz 파일의 행 간격을 어떻게 반환합니까? 15mil에서 20mil까지 5mil 행이 필요하다고 가정 해 보겠습니다. 이 최고의 실적을 올리는 옵션입니까? zcat myfile.gz|head -20000000|tail -500
real 0m43.106s
user 0m43.154s
sys 0m9.259s
압축을 풀고 소스 파일을 다시 zip (아카이브)해야합니다 (처리 후). 파일 크기는 일반적으로 약 200-250 GB (압축 해제, .dat 형식) (총 96 개 파일)입니다. 압축 해제 과정은 약 2 시간이 걸리며 다시 압축 과정은 1:30 ~ 2 시간이 걸리므로 부담스럽지 않습니다. 현재 압축을 해제하려면 "zcat"명령을 사용하고 파일을 압축하려면
특정 이름 패턴을 가진 여러 gzip 파일의 내용을 사용하여 큰 텍스트 파일을 만들어야합니다. 이를 위해 다음을 사용했습니다 : find . -name '*dna.toplevel.txt.gz' -exec zcat {} >> all.txt \;
그리고 잘 작동했습니다. 문제는 이제 특수 문자 ">"를 "> filename |"으로 대체하기 위해 텍스트를
내가 파일 이름에 따라 파일을 서 .gz 복원이 리눅스의 bash는/펄 스크립트를 만들 찾고 있어요 기반으로 ... 디렉토리 구조를 형성하므로 위의 두는 다음과 같습니다 /path/to/file.txt
/path/to/another/file.conf
이 모든/백업/디렉토리에 있습니다 .. 을 나는 고양이 각각에 파일을 .GZ하는 스크립트를 작성하려는
본질적으로 압축 된 로그 파일 인 .gz 로그 파일에서 특정 값 (이 경우 userAgent)을 추출하려고합니다. 이러한 로그 파일에 각 로그 문장의 형식은 다음과 같습니다 userAgent=BundleDeviceFamily/iPhone,iPad (iPad; iPad2,5; iPad2,5; iPhone OS 6.1.3)
userAgent=FNetwork/
CSV 파일을 한 줄씩 읽는 쉘 코드는 일부 열 값의 모든 줄을 확인하고 조건에 따라 다른 새 CSV 파일을 만들어야합니다. 나는 다음과 같은 코드를 시작했습니다 : FileName=$1
while read line
do
zcat FileName awk -F'\t' '$3 ~/.jar/ || $3 ~/.msi/ || $3 ~/.