data-cleansing

    32

    4답변

    동일한 크기가 아닌 두 개의 데이터 세트가 있습니다. 나는 보고서에 들어가는 그래프에서 잡음을 제거하기 위해 B에 있지 않은 A의 값을 자르고 그 반대도 마찬가지입니다. (이 데이터를 영구적으로 삭제되지 않는, 걱정하지 마세요!) 나는 다음과 같은 읽고 : Selecting columns in R data frame based on those *not* i

    0

    1답변

    특정 문자열의 발생을 기반으로 대규모 데이터 세트를 신속하게 정리하는 방법을 찾으려고합니다. created_at actor_attributes_email type 3/11/12 7:28 [email protected] Event 3/11/12 7:28 [email protected] PushEvent 3/11/12 7:28 [email pro

    2

    2답변

    사람들은 일반적으로 데이터웨어 하우징에서 준비 단계를 수행합니까? 나는 비슷한 작업을해야하고되는 NoSQL 데이터베이스를 사용하여 데이터 통합을 위해 좋은 옵션과 얼마나 쉽게 많이하고 효율적인은 데이터 정리를 수행하는 것입니다 및 가 가지고 닦고 것입니다 있는지 확실하지 않다 누군가이 지역에서 일을 했나요? SO 스크러빙 데이터 ETL 당신을 위해 당신

    0

    2답변

    나는 데이터베이스에 뉴스 항목을 게시하는 ModelForm을 가지고 있으며, 승인 된 포스터가 굵게 또는 기울임 체와 같은 스타일 텍스트에 특정 HTML 조각을 삽입 할 수 있도록 자바 스크립트 텍스트 영역을 사용합니다. 그러나 "안전한"필터를 사용하여 템플릿 출력을하므로 양식 위젯이 전달하려고하는 모든 HTML을 출력합니다. 여기에는 절대로 없어지지 않는

    0

    1답변

    스프링 배치 메타 데이터 용 HSQLDB 메모리 내장 데이터베이스가있는 스프링 배치를 사용하고 있습니다. 내 응용 프로그램을 계속 실행해야하므로이 데이터베이스는 내 메모리에 문제가됩니다. 주기적으로 청소할 방법이 필요합니다. 나는 이미 조건에 따라 데이터를 삭제하는 저장 프로 시저 (old datas)를 사용하는 것에 대해 생각했다. 이 프로시 저는 Spr

    2

    1답변

    많은 양의 복잡한 파일 (대부분 CSV 파일이지만 일부는 그렇지 않습니다)을 구문 분석 중이므로 일부 표준 형식으로 구조화/구문 분석해야합니다. 이것은 데이터의 행 현명한 정리뿐만 아니라 일부 간단한 개별 셀 기반 논리를 포함합니다. 프로그래머가 아닌 프로그래머도 사용할 수있는 도구를 원합니다. 비즈니스 팀 구성원이 간단한 드래그 앤 드롭 논리를 작성하고

    2

    1답변

    echoprint를 사용하여 iPhone 4 +의 전체 음악 라이브러리를 지문 채취하는 것이 얼마나 힘든지 궁금합니다. 2-3k 곡을 분석하는데 얼마나 걸릴 것으로 예상 되나요? 이것은 심지어 합리적입니까?

    0

    1답변

    약 50 개의 열이있는 15 개의 SQL Server 테이블이 있습니다. 일부 열에는 따옴표, 쉼표 및 탭이 포함되어 있습니다. 나는 열 이름이 주어진 행에서 이들 모두를 제거하는 기능이 있지만 어떤 열에 문제가 있는지 알 수 없습니다. 테이블 이름이 잘못된 데이터가있는 열 이름을 반환 할 수있는 SQL Server 2005 쿼리를 원합니다.

    2

    1답변

    중복 된 잘못된 데이터가있는 데이터베이스가 있습니다. 예를 들어 기사의 일부 이름은 대문자 소문자 차이, 기타 악센트 문제, 기타 문자 누락 등이 있습니다. 아이디어는 실제로 동일한 db 레코드를 병합하는 것입니다. 거기 밖으로 쉽게 청소 데이터베이스, 이상적이 자동으로 수행하지 될 수 있지만

    2

    1답변

    나는 그것에 100,000+ 문자열이있는 열을 가지고 있습니다. Google 검색에서이 문자열을 지문으로 대체하려고합니다. Google 상세 검색에서 해당 열을 선택하고 텍스트 패싯을 만들었습니다. Text Facet에서 "Cluster"를 선택할 수 있습니다. 그러면 동일한 지문을 가진 문자열 값을 의미하는 것으로 가정하는 클러스터가 표시되고 클러스터의