그래서 텍스트 파일 (각 행은 채팅 로그)을 R로 변환하여 데이터 프레임으로 변환하고 데이터를 정리합니다.채팅 로그를 분석하기 위해 텍스트 파일을 R로로드
각 줄을 한 줄로 표시 할 수 있도록 read.Lines를 사용하고 있습니다. read.Lines는 단일 긴 문자를 읽으므로 그런 다음 문자열로 변환합니다 (로그를 구문 분석해야 함). 나는 데이터 프레임에이 목록 설정하고자 할 때
rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- c(lapply(rawchat, toString))
아래 내 문제가되어 당과 같이
rawchat <- as.data.frame(rawchat)
을이 42,000 변수의 1 명 관찰 데이터 프레임으로 목록을집니다. 하나의 변수에 대한 42,000 회의 관측으로 바꾼다.
도움이 필요하십니까?
내가 아래에 따라 데이터 프레임과 같은 텍스트 파일을로드 : 그런데
, 나는 그래서, 다른 블록을 발생R.
에서 원시 데이터를 정리에 아주 새로운 오전.rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)
names(rawchat) <- "chat"
나는 현재 내가 제대로
startsWith()
기능 또는
dplyr
starts_with()
, 정규 표현식도
grepl
을 적용 할 수없는 것 숫자 16로 시작하는 행 (42000)를 식별하기 위해 노력하고 있어요.
데이터 프레임 (chr
)의 관측 형식 일 수 있습니까?
그것은'rawchat'은 벡터처럼 보이는를 사용하는 것을 잘입니까? 그렇다면'rawchat <- data.frame (text = rawchat, stringsAsFactors = FALSE)'일까요? – rosscova
'readLines'를 사용한 직후'data.frame (sapply (rawchat, toString))'이 올바른 대답을 주나요? – gsun
나는 그것을 시도하지 않았다. 내가 한 일 : rawchat <- readLines ("disc-W-App-avec-loy.txt") ") rawchat <- as.data.frame (rawchat, stringsAsFactors = FALSE) –