목록데이터베이스 (19)
매일 매일 미라클 코딩
✔ 데이터 분석 파이프라인 데이터 수집 -> 전처리 -> 모델 적용-> 모델 평가 위 단계의 사이클 중 가장 많은 비중을 차지하는게 전처리과정(7~80%) 전처리 과정에서 어떤모델이 적합할지 고르는 일(EDA)에 R이 효과적. 파이썬으로도 가능하다. ✔ R 통계계산이나 자료 시각화를 위한 공개용 SW GPL 라이센스하에서 무료로 이용 인덱스가 1부터 시작하는게 특징 컴공 아닌 통계학 베이스로 만들었기 때문 ✔R의 작동방식 - Only 메모리 베이스로 동작함(치명적) - 라이브러리와 데이터 모두 메모리에서 동작하기 떄문에 메모리 오버플로우가 일어날 수 있다. - 변수 사용 1) 대소문자 구분 2) 문자로 시작 3) .으로 띄어쓰기 대체 가능 ex) del.na 4) 단일 알파벳이나 시스템변수는 변수로 쓰지..
보호되어 있는 글입니다.

✔빅데이터의 정의 • 과거의 데이터는 정제된 데이터. 포맷을 가지고 RDBMS 스키마가 적용되는데이터였던 반면, 빅데이터는 데이터 관계를 직관적으로 알 수없는 비정제 데이터이다. • IDC의 정의에 따르면 빅데이터란? “ 규모가 크고 구조가 다양하고, 매우 빠르게 획득하고 분석할 수 있도록 새로운 기술로 관리해야하는 데이터이다” • 빅데이터 4가지 구성요소 (3V) 규모(Volume), 다양성(Variety), 복잡성(Complexity), 속도(Velocity)의 증가 -> 복잡성은 다양성에 기인하므로 3V 로 칭한다. ✔하둡(Hadoop) 저비용으로 가능한 확장성, 고가용성, 결함허용성이 특징 소셜, 기업, 금융데이터를 이전엔 각 도메인 전문가가 따로 분석했으나 이제 하나의 플랫폼에 저장. 따라서 클..
리눅스는 권한에 매우 엄격하기 때문에 권한 관련한 명령어를 숙지해야한다 ✔권한관련 명령 sudo (순간적으로 root 권한 사용하기) sudo cat abc.txt -> 권한과 상관없이 abc.txt 파일의 내용을 표시할 수 있다 passwd : 패스워드 변경 * 퍼미션 : ls -al 명령어 사용시 맨 첫번째 컬럼에서 첫글자 뒤의 내용은 권한을 표시한다. 이를 퍼미션이라고 한다. 퍼미션은 세 자리씩 순서대로 사용자 / 그룹 / 기타사용자 권한을 나타낸다. 권한 또한 read / write / excute 세 종류로 나뉜다. ex) rwx------. 의 경우 사용자에게만 read/write/excute 이 주어졌음을 나타낸다 (-는 안준거) rw- / r-- / r-- : 읽을권한은 모두에게, 수정권한..