빅데이터 썸네일형 리스트형 Day 23. R 프로그래밍; 데이터 프레임; 자료형 데이터 구조 변환; 데이터 구조 변경 데이터 프레임 "데이터 프레임" -데이터에서 각각의 변수에 해당하는 열들의 모임- 기능 R 코드 비고 데이터 프레임 data.frame(벡터,벡터,벡터) 벡터들로 데이터셋 생성 레코드 생성 new 더보기 Day 21. R 프로그래밍; 벡터; 리스트; 데이터 프레임; 자료 형태(mode) 벡터(Vector) 데이터 분석에서의 벡터 → 여러 개의 원소를 가지는 하나의 '변수' *벡터들은 동질적이다? 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드를 가짐 *벡터는 위치로 인덱스 된다? V[2]는 v벡터의 2번째 원소 *벡터는 인덱스를 통해 여러 개의 원소로 구성된 하위 벡터를 반환할 수 있다? V[c(2,3)]은 v벡터의 2번째, 3번째 원소로 구성된 하위 벡터 *벡터 원소들은 이름을 가질 수 있다? V 더보기 Day 20. R 프로그래밍; 입력(Import)과 출력(Export) 입력과 출력의 과정 ↓ ↓ ↓ R에서 처리할 수 있는 데이터 타입 SAS / SPSS / Minitab / Stata / Keyboard / Sockets / Excel / netCDF / HDF5 / No SQL / MapReduce / Hadoop / Access / MySQL / MS-SQL / Sybase / DB2 / Oracle / Webscraping / XML / ASCII R에서 다룰 수 있는 파일 타입 Tab-delimited text / Comma-separated text / Excel file / JSON file / HTML file / XML file / Database / Statistical SW's file 기능 R 코드 비고 키보드로 데이터를 입력 (1) 데이터 양이 적.. 더보기 Day 19. R 프로그래밍; 배치모드; 기초 코드; 연산자; 함수 생성 배치모드 1) 배치모드 기능 -사용자와 인터렉션이 필요하지 않는 방식으로 매일 돌아가야 하는 시스템에서 프로세스를 자동화할 때 유용- 2) 배치 파일 실행 명령 윈도우 도스창에에서 실행 $R CMD BATCH batch.R 3) Path 지정 "내컴퓨터(또는 내 PC)" 오른쪽 마우스 클릭 → 속성 → 고급시스템 설정 → 환경변수 클릭 → 변수명 path 클릭 → R프로그램의 실행파일의 위치를 찾아서 추가 → 저장 4) 배치파일 실행 윈도우 창의 batch.R 실행파일이 있는 위치에서 "R CMD BATCH batch.R" 실행 R 기초 코드 기능 R 코드 비고 출력1 print() 한 번에 하나의 객체만 출력 예) print(a) 출력2 cat() 여러 항목을 묶어서 연결된 결과로 출력 복합적 데이터 .. 더보기 Day 18. R 프로그래밍; 다운로드, 설치 용어 정리 *GUI : graphical user interface, 사용자가 컴퓨터와 정보를 교환할 때, 그래픽을 통해 작업할 수 있는 환경 *Package : R 함수와 데이터 및 컴파일된 코드의 모임 R 패키지 불러들이기 저는 웹을 통해서 R 패키지를 불러들였습니다! 'CRAN'에서 Windows, Mac 등 여러 버전을 제공하고 있으니 아래 주소에서 환경에 맞게 다운받으시면 됩니다. 저는 Windows 버전으로 다운로드를 하였고, 위의 아이콘이 32비트, 아래가 64비트 버전입니다. 패키지 도움말 -library(help=AID) : 다운로드 된 AID 패키지의 help 다큐먼트를 보여준다. -help(pakage=AID.. 더보기 Day 16. 분석 거버넌스(3) *목표 : 기업 경쟁력 확보를 위해 비즈니스 질문과 이에 부합하는 가치를 찾고 비즈니스를 최적화하는 것 *역할 : 기업 내 존재하는 빅데이터 속에서 Insight를 전파하고 이를 Action화 하는 것 *구성 : 기초통계학 및 분석 방법에 대한 지식과 분석 경험을 가지고 있는 인력 *분석을 위한 3가지 조직 구조 (DSCoE : Data Science Center of Excellence) *목표 : 기업 경쟁력 확보를 위해 비즈니스 질문과 이에 부합하는 가치를 찾고 비즈니스를 최적화하는 것 *역할 : 기업 내 존재하는 빅데이터 속에서 Insight를 전파하고 이를 Action화 하는 것 *구성 : 기초통계학 및 분석 방법에 대한 지식과 분석 경험을 가지고 있는 인력 *분석을 위한 3가지 조직 구조 (D.. 더보기 Day 12. 분석 프로젝트 관리 방안 분석 프로젝트 관리 파트는 제가 데이터사이언티스트가 된 것 같은 느낌이 들 만큼 굉장히 실용적인 내용이었습니다. 물론 준전문가 과정이니 상세하게 배우지는 못할지라도 조금이나마 분석 프로젝트를 어떻게 진행해야 하는지 알 수 있었습니다. -분석 프로젝트는 다른 프로젝트 유형처럼 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 필수- + 분석과제관리 '5가지 주요 속성' 1. Data Size -분석하고자 하는 데이터의 양을 고려한 관리 방안 수립 필요- 2. Data Complexity -정형 데이터가 있을 수 있고, 비정형 데이터가 산재해 있을 수 있다. 분석 프로젝트를 진행할 때는 초기 데이터의 확보뿐 아니라 해당 데이터에 잘 적용될 수있는 분석 모델의 선정도 중요- 3. Speed -분석 결과.. 더보기 Day 11. 분석 과제 발굴, 상향식 접근법 하향식 접근법이 전통적인 접근법이었다면 상향식 접근법은 하향식 접근법의 한계를 보완하였다고 볼 수 있습니다. 명확한 분석 방향이 정해지지 않은 상태에서 방대한 데이터를 가지고 나름의 통찰력 있는 분석을 통해 결과를 도출해야 합니다. 이런 맥락이라면, 상향식 접근법은 빅데이터 시대에 어울리는 접근법이 아닐까 생각이 듭니다. -다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 과정- *하향식 접근법의 한계를 극복 -하향식 접근법은 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적- -하향식 접근법은 솔루션 도출에는 유효 But, 새로운 문제 탐색에는 한계- (최근 복잡, 다양한 환경에는 적합하지 않음) *답을 미린 내는 것이 아니라 사물을 있는 그대로 인식하는 .. 더보기 이전 1 2 다음