E D R , A S I H C RSS

빅 데이터 프로세싱

Big data processing

이 문서는 빅데이터로도 들어올 수 있다.

2012년 초엽부터 IT업계에서 급속도로 확산되고 있는 신기술. 신문 같은 미디어 매체에서는 약칭인 빅 데이터를 주로 사용하고 있다.

기존의 개인 컴퓨터가 감히 처리할 수 없는 극대용량의 데이터를 일괄적으로 분석하여 새로운 데이터를 뽑아낸다는 것이 이 개념의 핵심이며, 대표적인 것이 검색엔진의 검색어 분포도를 통한 데이터 추출이다. 예를 들자면 특정 지역에서 감기 또는 감기약 등의 검색어를 사용하는 빈도가 늘어난다고 하면 해당 지역에 감기약의 공급을 늘리는 것이 있다.[1]

빅 데이터의 특징을 언급할 때 흔히 4V가 거론된다.

  • Volume(규모) : 이름이 이름이니만큼(…) 당연히 대용량이다! 일례로 페이스북이 하둡(Hadoop) 데이터베이스에 저장하는 사진문서 용량이 30페타바이트(대략 30,000TB)에 이른다. 뉴욕 증권거래소는 매일같이 1TB에 해당하는 데이터를 쏟아낸다. 좀 더 극단적인 예를 들자면, 우리나라 전국 각지의 골목길마다 설치된 CCTV 영상 수년치 분을 데이터로 취합한다고 상상해 보자. 바이트 수로 어느 정도 규모일지 짐작이 되는가?(…)
  • Variety(다양성) : 흔히 비정형적 데이터(Unstructured Data)로 불리는 것들, 즉 계량화 및 수치화가 힘든 데이터까지도 포함하는 것이 빅 데이터이다. 대표적인 예로는 SNS 상에서 오가는 무수한 잡담들, 유튜브 영상이나 음원 파일 등도 빅 데이터 분석에 사용될 수 있다.
  • Velocity(속도) : 이런 어마어마한 양의 다양한 데이터를 분석하려다 보니 과거의 느린 마이닝 속도나 분석 속도로는 어림도 없는 일이다. 빅 데이터가 적시에 유용한 정보를 뽑아내기 위해서는 당연히 속도가 빨라야 한다.
  • Value(가치) : 빅 데이터가 추구하는 것은 가치의 창출이다. 빅 데이터 분석을 통해 도출된 결론은 기업이나 조직의 당면한 문제를 해결할 수 있어야 하며 통찰력 있는 유용한 정보를 제공해야 한다.

사람들의 마음 속을 어느 정도 계량화해서 데이터로 만들어 응용하는 것이 가능하다 보니 주요 대기업들 사이에서 독자적인 빅 데이터 응용 모델 만들기가 대유행중이다. 특히 버락 후세인 오바마가 자신의 선거에서 빅 데이터로 크게 재미를 봤다. 그러나 아직까지 뚜렷한 성과를 낸 기업은 2012년 기준으로 대한민국에는 없는 모양.

빅 데이터 프로세싱을 통해 얻을 수 있는 이점 중 일부만 열거하면 다음과 같다.

  • '추천 엔진' 운용 - '당신이 알 수도 있는 사람', '아마존 추천 상품' 등
  • 심리/동향 분석 - SNS 포스팅이나 인터넷 광고 클릭 성향 등을 통한 맞춤형 정보 제공
  • 빅 데이터 리스크 모델링 - 금융업계에서의 투자 시나리오 작성 보조
  • 인터넷 사기행위 탐지 - 거래데이터 및 평가도 기준으로 필터링 가능. 남아프리카의 보험사 Santam 사에서는 예측 분석과 위험 세분화 등을 통해 발견한 패턴으로 보험 사기를 좀 더 빠르게 적발하고, 보험사기 확률이 낮은 건에 대한 처리 속도를 개선해 고객만족도 역시 높였다.
  • 각종 네트워크 모니터링 - 빅 데이터 통합 카테고리로 통합된 라인 업무 정리
  • 정당 후보의 선거유세 활동 - SNS속 빅 데이터의 분석으로 유권자 개개인의 특성과 성향을 분류하고 이에 따라 마이크로 타겟팅이 가능. 실제로 2012 미국 대선에서 민주당 오바마 당시 후보가 사용했던 선거 전략으로, 약 1억 건의 빅 데이터 분석을 통해 유권자의 정당 지지 성향, 관심 공약, 투표율 등을 고려하여 약 600종류의 이메일로 선거활동을 한 바 있다.

아직도 감이 잘 안 잡힌다면, 페이스북당신이 알 수도 있는 사람이나 아마존추천 상품 등이 대표적인 실제 예제. 특정 사용자가 검색하는 검색어 패턴이나 클릭해서 본 적이 있는 각종 인터넷 광고들의 통계를 내서 정확도 순서로 맞춰 리스트를 출력해 주는데, 이것이 빅 데이터 응용의 기본 개념이다. 시내버스 노선 통계를 낼 때도 유용하다. 이전에는 요금함을 일일이 뒤져서 액수 다 세고 그리고 어디서 내리는지도 알 수 없었으나 수도권 통합 요금 도입으로 인해 내릴 때 카드를 찍는 것이 일반화되어 승하차량을 좀 더 간편히 알 수 있게 되어 시내버스 노선을 새로 짤 경우 유용하게 사용될 수 있다.

종종 빅 브라더와도 관련되어 언급되곤 한다. 혹시 혼동할까봐 구별하자면 빅 데이터는 데이터베이스 관련 기술명 이름이며 빅 브라더는 국가권력의 비합법적인 사회 감시체계를 말하는 것이다. 물론 "데이터 권력", "정보 권력" 이라 하여 빅 데이터가 절대적 권력자의 손에 들어가는 순간... 사실상 사회의 완벽한 통제가 가능해진다. "빅 데이터는 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 데이터 전문가들 사이에 돌 정도인데 이렇게 되면 뭐...

데이터의 양이 지나치게 늘어난 사회에 살다 보니, 당연하게도 빅 데이터의 치명적 약점으로 사생활 침해개인정보 유출의 문제가 발생할 수 있다. 솔직히 말이 좋아 개인 SNS 빅 데이터 분석이지, 까놓고 말하면 그냥 숫제 도청과 크게 다를 바 없다.(…) 게다가 사회가 감당하기 어려울 만큼 데이터가 폭증하고 있는데 이걸 관리할 전문인력이 없다는 것도 문제이다. 데이터를 분석하던 회사가 망해 버리면 그 데이터는 어디로 가느냐도 문제. 이러다 보니 또 일각에서는 소위 "데이터 다이어트" 라는 것까지도 제안하고 있는 상태.
----
  • [1] 이 활용법이 서울대 의대 면접 제시문으로 등장한 것으로 보인다. #
Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2015-04-03 00:08:07
Processing time 0.0700 sec