Day 3. 빅데이터(Big Data)란 무엇인가
본문 바로가기

카테고리 없음

Day 3. 빅데이터(Big Data)란 무엇인가

빅데이터란 무엇인가?

 

고등학교 1학년 때 뉴턴이라는 과학 잡지에서 빅데이터(Big Data)를 처음 접했습니다.

그때는 막연히 데이터가 너무 많아진 상태라고만 알고 있었는데, 실제로 빅데이터는 완전히 다른 개념이었습니다.

 

빅데이터를 공부하면서 가장 인상깊었 던 것은 이 '빅'이라는 것의 의미가

단순히 많아지고 커졌다는 것을 나타내는 것이 아니란 걸 알게 됐다는 것입니다.

 

책에서 나온 말입니다.

데이터는 크기의 이슈가 아니라, 거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요하다. 무작정 ‘빅’한 데이터를 찾을 것이 아니라, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 무엇보다 중요하다.

 

제 꿈을 위해서라도 빅데이터는 필수적인 것이기에, 이 파트의 공부가 아주 재미있었습니다.

 

________________________________________________________________________________________________

 

출처 : LG CNS 블로그

 

빅데이터의 정의는

좁은 범위, 중간 범위, 넓의 범위

이렇게 3가지가 있습니다.

 

각각은 아예 다른 성격을 가지고 있는 것이 아니라

성격의 범위가 차차 넓어지는 것일 뿐입니다.

 

우선 좁은 범위의 정의는 3V인데,

데이터 자체의 특성 변화에 초점을 맞춘 개념입니다.

양, 다양성, 속도 측면에서 그 규모가 더 커졌다(Big)고 볼 수 있습니다.

 

(Volume) : 데이터의 규모 측면 (센싱데이터, 비정형데이터)

다양성(Variety) : 데이터의 유형과 소스 측면 (정형, 비정형 데이터)

속도(Velocity) : 데이터의 수집과 처리 측면 (원하는 데이터의 추출 및 분석속도)

 

참고로 3V에 아래의 것들이 추가되면

가치(Value), 시각화(Visualization), 정확성(Veracity)

4V가 됩니다.

 

중간 범위의 정의는

데이터 자체뿐 아니라 처리, 분석, 기술적 변화까지 포함되는 정의인데,

데이터를 다루는 기술적 측면의 규모가 커졌다고 볼 수 있습니다.

 

넓은 범위의 정의는 더 포괄적으로

조직의 변화까지 고려한 개념입니다.

데이터와 그 데이터를 다루는 기술이 발전함에 따라 이 모든 것을 다루는 조직의 변화도 필연적이게 되는 것입니다.

 

정리하면,

데이터 변화 → 기술 변화 → 조직(인재) 변화 

 

*데이터 변화 : 규모, 형태, 속도

*기술 변화 : 데이터 처리, 저장, 분석 기술 및 아키텍쳐 / 클라우드 컴퓨팅 활용

*인재, 조직 변화 : Data Scientist 같은 새로운 인재 필요 / 데이터 중심 조직

 

현대 사회를 빅데이터의 사회라고 말핻고 과언이 아닌데,

빅데이터와 관련된 비유 몇 가지를 살펴보겠습니다.

 

①산업혁명의 석탄, : 사회,경제,문화,생활 전반에 혁명적 변화를 가져올 것으로 기대

②21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것

③렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대

④플랫폼 : 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할 할 것으로 전망

 

그렇다면 빅데이터가 가져다준 변화에는 어떤 것이 있을까요?

생활 전반에 너무나 많은 예들이 있습니다만,

좀 더 본질적인 부분을 살펴보도록 하겠습니다.

 

1.사전처리→사후처리

-최대한 다양한 방식으로, 많이 모으고 뒤에 생각하자-

2.표본조사→전수조사

-샘플이 주지 못한 패턴을 발견할 수 있다-

3.질→양

-지속적인 데이터의 추가는 양질에서 초래된 오류정보를 커버할 수 있다-

4.인과관계→상관관계

-단순히 원인과 결과로 규정되지 않고 수많은 정보로부터 상관관계가 도출될 수 있다-

 

이 정도의 변화라면 산업 전반, 아니 인간 사유의 매커니즘을 통째로 바꾸었다고 볼 수 있습니다. 

이런 사회를 살아가는 우리는 단연

빅데이터를 다룰 수 있어야 할 것입니다.

 

빅데이터를 활용한 기본 테크닉 7가지가 있습니다.

각 항목별 예는 제가 만들어본 것인데,

혹시나 어색한 점이 있다면 말씀해주시기 바랍니다!

 

1.연관 규칙 학습

-변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법-

-예) 아이스크림이 많이 팔리면 우산도 많이 팔릴까?-


2.유형분석

-문서를 분류하거나 조직을 그룹으로 나눌 때 사용-

-예) 별자리 자료는 4가지 과학탐구과목 중 어디에 속할까?-

 

3.유전자 알고리즘

-최적화가 필요한 문제의 해결을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법-

-예) 혹한기 훈련 때 장병들은 어떤 종류의 전투식량을 더 선호할까?-

 

4.기계학습

-훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법-

-예) 매년 혹한기 훈련을 몇 월에 했을 때 장병들의 임무 수행 능력이 향상되었을까?-

5.회귀분석

-독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용-

-예) 시청 연령 제한이 실제 TV시청에 얼마나 영향을 미칠까?

 

6.감정분석

-특정주제 에 대해 말하거나 글을 쓴 사람의 감정을 분석-

-예) 불매운동 시기에 일본 여행을 다녀온 사람들의 심리는 어땠을까?-

 

7.소셜네트워크분석(=사회관계망분석)

-특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용-

-예) 가수 OO의 팬클럽에 가입한 회원들의 연령대는 어떻게 형성되어 있는가?-

 

더 복잡해지고 많아진 데이터 속에서 위와 같은 분석이 가능할텐데,

그런 빅데이터의 가치를 산정하는 일은 어렵습니다.

 

데이터 활용 방식 측면 : 데이터를 언제 어디서 누가 활용할지 알 수 없게 됨

새로운 가치 창출 측면 : 기존에 없던 가치를 지속적으로 창출함에 따라 가치 측정 어려워짐

분석 기술 발전 측면 : 현재는 가치가 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장하면 거대한 가치를 지닌 데이터가 될 수도 있다.

 

어떻게 보면 당연한 말일 수 있지만,

문제는 갈수록 이 한계의 양상이 첨예화되고 있다는 점입니다.

 

뿐만 아니라,

빅데이터를 바람직하지 못하게 사용한다면 여러 위기가 발생할 수 있습니다.

즉, '빅데이터의 위기 요인'이라고 하는데

대표적으로 3가지가 있습니다.

(위기에 따른 통제방안을 적어두었습니다.)

 

사생활 침해

(개인정보 제공자의 동의 → 개인정보 사용자의 책임)

 

책임 원칙 훼손

(결과 기반 책임 원칙 고수)

(예측 자료에 의한 불이익을 당할 가능성을 최소화)

(못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없음)

 

 

 

데이터 오용

(알고리즘에 대한 접근권 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법 명시해 공개)

(자연스레 알고리즈미스트의 등장)

 

데이터를 공부하면서 처음 알게 된

이 알고리즈미스트가 무엇인지??!!

포스팅해보고 싶습니다~