목록빅데이터 (6)
매일 매일 미라클 코딩
R의 프로그래밍적 요소 제어문과 반복문, 이를 이용한 함수 선언이 가능하다 - 제어문: if( 조건 ){ 실행문 } # 자바와 같이 중괄호를 이용해 중첩된 조건문 실행이 가능하다 - 반목문 : for / while/ repeat for(i in 1:5) print(rep(i,i)) -> in 은 파이썬과 똑같이 뒤에 iterable한 벡터값이 온다 # 결과: 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 들여쓰기는 상관없지만 알아보기 좋게 정리해주는 게 좋다 *assign 문으로 한번에 쓸수도 있음 1) 조건문 결과값을 변수에 대입 y 조건을 만족하면 y
데이터프레임(Data frame) : 같은길이를 갖는 벡터들의 리스트 - 2차원 자료구조 - List와 matrix의 특성을 보유 - 가장 일반적으로 사용되는 자료구조 ✔ 데이터 프레임 생성 data.frame(a,b,c) 함수 : char1 df[ , c("x","z")] df[df$x ==2, ] x y z 1 1 3 a 2 2 2 b 3 3 1 c x z 1 1 a 2 2 b 3 3 c x y z 1 1 3 a 3 3 1 c x z 1 1 a 2 2 b 3 3 c x y z 2 2 2 b subset() : 특정조건을 만족하는 observation 선택 A apply(M,1,min) #1 : 모든 행에 적용 [1] 1 2 3 4 > apply(M,2,max) #2 : 모든 열에 적용 [1] 4 8 ..
✔ 데이터 분석 파이프라인 데이터 수집 -> 전처리 -> 모델 적용-> 모델 평가 위 단계의 사이클 중 가장 많은 비중을 차지하는게 전처리과정(7~80%) 전처리 과정에서 어떤모델이 적합할지 고르는 일(EDA)에 R이 효과적. 파이썬으로도 가능하다. ✔ R 통계계산이나 자료 시각화를 위한 공개용 SW GPL 라이센스하에서 무료로 이용 인덱스가 1부터 시작하는게 특징 컴공 아닌 통계학 베이스로 만들었기 때문 ✔R의 작동방식 - Only 메모리 베이스로 동작함(치명적) - 라이브러리와 데이터 모두 메모리에서 동작하기 떄문에 메모리 오버플로우가 일어날 수 있다. - 변수 사용 1) 대소문자 구분 2) 문자로 시작 3) .으로 띄어쓰기 대체 가능 ex) del.na 4) 단일 알파벳이나 시스템변수는 변수로 쓰지..

✔빅데이터의 정의 • 과거의 데이터는 정제된 데이터. 포맷을 가지고 RDBMS 스키마가 적용되는데이터였던 반면, 빅데이터는 데이터 관계를 직관적으로 알 수없는 비정제 데이터이다. • IDC의 정의에 따르면 빅데이터란? “ 규모가 크고 구조가 다양하고, 매우 빠르게 획득하고 분석할 수 있도록 새로운 기술로 관리해야하는 데이터이다” • 빅데이터 4가지 구성요소 (3V) 규모(Volume), 다양성(Variety), 복잡성(Complexity), 속도(Velocity)의 증가 -> 복잡성은 다양성에 기인하므로 3V 로 칭한다. ✔하둡(Hadoop) 저비용으로 가능한 확장성, 고가용성, 결함허용성이 특징 소셜, 기업, 금융데이터를 이전엔 각 도메인 전문가가 따로 분석했으나 이제 하나의 플랫폼에 저장. 따라서 클..