data-cleansing

    0

    1답변

    어리석은 질문을하지만 데이터 정리를위한 GUI 도구가 필요합니다. 경영진이 작업을 단순화 할 수 있다면 데이터 정리 작업 중 일부를 대신 제공하겠다고 제안했습니다. 저는 R을 사용하여 데이터를 정리하고 Awk를 분할하여 기술적 능력이나 관심을 넘어 섰습니다. 한 번에 모든 작업을 수행하는 Python 스크립트를 작성하겠다고 제안했지만 GUI가 필요했습니다.

    3

    1답변

    연속 관측의 정의 된 수에 따라 조건부, 내 문제는 부분 만이 표시됨) : Week_Starting Team A Team B Team C Team D 2010-01-02 1 2 3 4 2010-01-09 2 40 1 5 2010-01-16 15 <NA> 4 11 2010-01-23 25

    0

    1답변

    내 열에서 하위 문자열을 제거하는 방법을 가장 안좋은 방법으로 여기에서 찾고 며칠 동안 모두가 처음부터 끝 부분에서 데이터를 제거하려고합니다. 열 데이터 : /data/data/data.com --data=nameiwant2keep 열 이름 : column1 테이블 이름 : table1 어떤 도움 주셔서 감사합니다.

    0

    1답변

    본질적으로 내가 작성한 줄에서 특정 항목이있는 목록을 만들 수있는 스크립트를 만들려고합니다. SQL DB에 삽입 할 수 있습니다. 나는 텍스트 파일 "addresses.txt"에 다음과 같은 여러 개의 전화 회선이 : 예를 들어 {"status":"OK","message":"OK","data":[{"type":"addressAccessType","addre

    1

    1답변

    특허 정보가있는 130k 라인의 텍스트 파일이 있으며 Excel에서 후속 작업을 위해 날짜 (정규식 "[0-9]{4}-[0-9]{2}-[0-9]{2} ")를 유지하려고합니다. 이 목적을 위해 나는 선 구조를 그대로 유지해야한다 (또한 빈 줄). 내 주요 문제는 다른 모든 정보를 삭제하는 동안 동일한 줄에 날짜 정보를 식별하고 유지하는 방법을 찾지 못하는 것

    9

    4답변

    팬더 factorize 함수는 계열의 각 고유 값을 순차 0 기반 인덱스에 할당하고 각 계열 항목이 속하는 인덱스를 계산합니다. 내가 여러 열을 pandas.factorize에 해당하는 작업을 수행하고 싶습니다 : 나는 데이터 프레임의 여러 열에서 값의 각각의 고유 한 튜플을 결정하고자한다 import pandas as pd df = pd.DataFram

    0

    1답변

    데이터를 정리해야하는 MySQL 데이터베이스가 있습니다. 정규화 된 테이블을 한 번에 정리할 수있는 도구가 있는지 찾고 있습니다. 예 : User 테이블 make 및 model Make 테이블에 대한 코드를 포함하고있다 내가 Model 테이블 내가 통합하고자하는 모델을 가지고 통합하고 싶다고한다 수동으로 수행하는 것은 악몽입니다. ​​ model 테이블에

    1

    1답변

    기사 세트에 사용 된 모든 단어의 마스터 목록이 있습니다. 이제 각 기사 내의 마스터 목록에있는 각 단어의 출현을 계산하려고합니다. 그런 다음 데이터에 대한 연관 규칙을 만들려고합니다. 예를 들어, 내 데이터는 다음과 같습니다 나는이 형식으로 내 데이터를 얻을 필요가 master_wordlist = ['dog', 'cat', 'hat', 'bat', 'bi

    0

    2답변

    나는 데이터를 쿼리하기 위해 하이브를 사용하고 있습니다. 문제는이 데이터를 정리해야하고 내 컴퓨터에서 처리하고 처리하기에는 너무 큽니다 (따라서 Hadoop과 Hive 사용). 하이브와 함께 할 수있는 방법이 있습니까? 사용자 정의 함수를 살펴 보았지만 행을 기준으로 동작하므로 데이터를 정리하는 최적의 방법이 아닐 수도 있습니다. 감사합니다.

    0

    1답변

    1 부에는, I는 TextQualifier로 " 심볼에 의해 분리 된 특정 필드를 갖는 CSV가 this SO post 참조. 아래 예를 참조하십시오. 각 정수 (예 : 1,2,3 등)는 문자열이어야합니다. 한정 문자열은 " 기호로 둘러싸여 있습니다. 마지막으로 자격을 갖춘 문자열은 문자열의 일부로서 " 기호가 어떻게 1,2,3,"qualifiedStrin