2012-10-08 5 views
0

다음과 같은 시나리오 중 반복되는 데이터가 포함 된 이진 데이터에 무손실 알고리즘을 적용하여 가장 높은 비율을 얻는 지 궁금합니다.무손실 압축 이론은 패턴의 크기와 반복되는 시간에 따른 압축 비율입니까?

압축 비율을 패턴에 따라 다르게 가정합니다.

10 10 10 10 10 10 10 10 패턴 (10)의 크기 2 패턴 (10)이 8

반복 :

  1. 크기
  2. 시간은 예를 들어, 이진 데이터

반복 1001100110011001 패턴 (1001) 사이즈 4, 패턴 (1001) 반복

000 0000 11111111 패턴 (0) 크기 1, 패턴 (0) 반복 8; 패턴 (1) 크기 1, 패턴 (1) 반복 8; 또는 0000000 11111111 패턴 (0000000) 크기 8, 패턴 (0000000)이 반복 8; 패턴 (11111111) 크기 8, 패턴 (11111111) 반복 1;

위의 중 가장 높고 낮은 압축률은 어느 것입니까?

미리 감사드립니다.

+1

처음 두 예제는 알고리즘이 똑똑한 경우 같은 방법으로 압축해야합니다. (그것들은 동일합니다 - 첫 번째 패턴은 크기 4의 패턴으로 볼 수 있고 4 번 반복됩니다.)보다 일반적으로 N 길이이고 M 번 반복하는 패턴은 N * C 패턴으로 볼 수 있습니다 길이 및 M/C 시간을 반복합니다. – cdhowie

+1

압축 알고리즘은 매우 다릅니다. 수십 개의 LZ 스타일 알고리즘이 있어야합니다. 왜 묻는거야? – usr

+0

모두 안녕하세요! 답변 해 주셔서 감사합니다. 내가 물어 보는 이유는 무손실 압축 전에 적용 할 알고리즘 레이어에 대한 아이디어가 있기 때문입니다. 이것은 모두 개념 일 뿐이며, 프로토 타입은 말할 것도없고 엄격한 테스트가 아직 이루어지지 않았습니다. 나는 최대 압축을 보장하기 위해 LZW 및 허프만 무손실 알고리즘에 대한 입력에 대해 궁금합니다. 아래에 알고리즘과 한계를 적용하는 방법에 대한 순서도가 나와 있습니다. i46.tinypic.com/351vmll.png 정직한 의견? 부담없이 구멍을 뚫어 주시기 바랍니다 – chineerat

답변

2

이들은 모두 야생에서 볼 가능성이 거의없는 서열입니다. 질문의 요점은 무엇입니까?

런 - 오브 - 밀 압축기는 바이트 지향입니다. 이와 같이 단순히 같은 바이트가 반복되는 패턴은 가장 높은 압축 비율을 제공합니다. 예 : 1032 : 1, 수축 한계. 짧은 패턴의 다른 단순 반복은 매우 높은 압축 비율을 얻습니다. 예 : 두 개 또는 세 개의 반복 바이트 패턴에 대해 수축을위한 1032 : 1.

이러한 어리석게도 극단적 인 경우의 압축 한계는 데이터가 아닌 압축 형식의 함수입니다.

+0

안녕 모두! 답변 해 주셔서 감사합니다. 내가 왜 물어 보는 이유는 무손실 압축 전에 적용 할 알고리즘 레이어에 대한 아이디어가 있기 때문입니다. 이것은 모두 개념 일 뿐이며, 프로토 타입은 말할 것도없고 엄격한 테스트가 아직 이루어지지 않았습니다. 최대 압축을 보장하기 위해 LZW 및 허프만 무손실 알고리즘에 대한 입력에 대해 궁금합니다. 아래 알고리즘과 그 한계를 적용하는 방법에 대한 순서도가 나와 있습니다. http://i46.tinypic.com/351vmll.png 정직한 의견? 자유롭게 구멍을 내주세요. – chineerat

+1

몇 가지 조사가 있습니다. LZW는 더 이상 사용되지 않으며 허프만 코딩은 중복을 모델링하는 다른 체계의 일부일뿐입니다. LZ77, Burrows-Wheeler 변환, 부분 일치에 의한 예측 및 산술 코딩에 대해 읽어보십시오. 또한 무손실 압축을 향상시키기 위해 적용된 텍스트 전처리 기인 XML-WRT를 살펴볼 수도 있습니다. –