2017-02-10 6 views
1

그래서 텍스트 파일 (각 행은 채팅 로그)을 R로 변환하여 데이터 프레임으로 변환하고 데이터를 정리합니다.채팅 로그를 분석하기 위해 텍스트 파일을 R로로드

각 줄을 한 줄로 표시 할 수 있도록 read.Lines를 사용하고 있습니다. read.Lines는 단일 긴 문자를 읽으므로 그런 다음 문자열로 변환합니다 (로그를 구문 분석해야 함). 나는 데이터 프레임에이 목록 설정하고자 할 때

rawchat <- readLines("disc-W-App-avec-loy.txt") 
rawchat <- c(lapply(rawchat, toString)) 

아래 내 문제가되어 당과 같이

rawchat <- as.data.frame(rawchat) 

을이 42,000 변수의 1 명 관찰 데이터 프레임으로 목록을집니다. 하나의 변수에 대한 42,000 회의 관측으로 바꾼다.

도움이 필요하십니까?

내가 아래에 따라 데이터 프레임과 같은 텍스트 파일을로드 : 그런데

, 나는 그래서, 다른 블록을 발생

R.

에서 원시 데이터를 정리에 아주 새로운 오전.
rawchat <- readLines("disc-W-App-avec-loy.txt") 
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE) 
names(rawchat) <- "chat" 

나는 현재 내가 제대로 startsWith() 기능 또는 dplyr starts_with(), 정규 표현식도 grepl을 적용 할 수없는 것 숫자 16로 시작하는 행 (42000)를 식별하기 위해 노력하고 있어요.

데이터 프레임 (chr)의 관측 형식 일 수 있습니까?

+0

그것은'rawchat'은 벡터처럼 보이는를 사용하는 것을 잘입니까? 그렇다면'rawchat <- data.frame (text = rawchat, stringsAsFactors = FALSE)'일까요? – rosscova

+0

'readLines'를 사용한 직후'data.frame (sapply (rawchat, toString))'이 올바른 대답을 주나요? – gsun

+0

나는 그것을 시도하지 않았다. 내가 한 일 : rawchat <- readLines ("disc-W-App-avec-loy.txt") ") rawchat <- as.data.frame (rawchat, stringsAsFactors = FALSE) –

답변

1

문제는, 당신이 rawchat <- c(lapply(rawchat, toString)) 그냥

rawchat <- readLines("disc-W-App-avec-loy.txt")") 
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE) 
+0

글쎄, 조금 부끄럽다. 고마워요. –