'데이터마이닝'에 해당되는 글 1건

  1. 2017.02.06 머신러닝에 주목해야 하는 이유 1

빅데이터 공부 모임을 시작하면서 개발이나 수학을 잘 알지 못하는 사람들도 같이 공부 할 수 있도록 정리해보고자 합니다.



빅데이터가 대체 뭐죠?

문자 그대로 사이즈가 단순히 큰 데이터가 빅데이터일까? 사전적 의미를 찾아보자.


빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스형태가 아닌 비정형의 데이터 집합조차 포함한데이터로부터 가치를 추출하고 결과를 분석하는 기술


출처 : https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0



쉽게 설명하면 데이터들의 패턴을 분석하여 미래를 예측하는 기술(방법)이라고 이해가 되는 것 같다.





주목해야 하는 이유를 생각해보자!

웹기술의 고도화, 1인 1스마트폰, 빠른 인터넷 속도 등 언제 어디서든 쉽게 인터넷에 접속할 수 있는 환경이 만들어지면서 데이터가 어마무시하게 쌓이고 있다.

하지만 정보의 홍수속에서 내가 찾고자하는 정말 원하는 것을 찾기가 쉽지 않고 서비스를 제공하는 플랫폼들도 

유저들이 정말로 원하는 가치를 제공해주지 못하는 경우도 허다하다고 본다.

 

페이스북을 보면 맞춤 컨텐츠가 제공되고있고 그 정확도는 꽤 높아서 또 한번 놀라게 되며 그 컨텐츠를 더 즐기게 된다.

유튜브의 경우도 동영상의 재생 시간 및 구간, 정지 되었던 속도를 다 수집하고 분석하고 있다고 한다.

 

핵심은 고객의 니즈를 파악하고 공급을 예측하여 제공 된다면 활용도에 따라 달라지겠지만 결론은 빅데이터는 충분히 매력있고 영향력이 어마어마하다고 생각된다.





빅데이터 활용 사례

a. 제품 장애 발생 대비

1. 장애 발생 되는 제품들 수집

2. 장애 발생 징후 패턴 분석

3. 예측 되는 장애 부품 사전 공수

4. 결과 - 장애 발생시 영업 손실 하락

b. 의료 분야

1. 염기서열분석

c. 마케팅 활용

1. 애드 테크

d. 주식 자동 트레이드

e. ETC






어떻게 공부하면 될까?

'IT에 대해 잘 모르고 수학(통계)도 모르는데 공부 할 수 있을까?'


개인적으로 좋아하는 말이 무엇이든 알고 배워두면 좋다고 생각한다.

하지만 무언가의 어느정도 전문가가 되기 위해서는 많은 시간과 노력이 투자 되어야 하고 쉽지 않다.

배울 수 있는 자원은 한정되어 있기 때문에 내가 잘모르는 분야에 대해 깊게 파고드는 것 보다 각 분야에 전문가들이 사용자들이 쉽게 가져다 쓸 수 있도록 만들어진 자원을

잘 가져다 쓰는 것이 현명하다고 생각된다.


데이터 마이닝을 위한 기술들인 머신러닝, 딥러닝의 알고리즘은 말도안되게 복잡하고 어렵다.(분석해볼 엄두도 안날만큼 ㅎㅎ)

하지만 그 알고리즘들은 오픈소스로 다 제공이 되고 있어 우리는 적절한 데이터를 입력하여 가져다 쓰기만 하면 될 것같다.


수학이나 통계학에 대해 잘 알지 못해도 데이터가 어떤식으로 분석되는지에 대해 개념 원리 정도만 알아도 기본적인 데이터 분석 공부를 시작하기에 무리가 없다고 보여진다.


머신러닝(기계 학습)을 어떻게 공부할지 찾아보니 구글에서 '텐서플로우' 라는 오픈소스를 공개했고 파이썬 기반에서 동작되기에 '주피터' 를 설치하여 학습을 해보자.


요약

  • 복잡하고 어려운 원론적인 알고리즘에 대해 학습 비용이 너무 비쌈

  • 잘 만들어진 오픈소스들이 많아 필요한 상황에 잘 찾아 가져다 사용하면 됨

  • 구글에서 공개한 텐서플로우 오픈소스를 주목하자






다음에는 학습을 위한 환경을 구축하는 내용으로 포스팅 하겠습니다 :)





Posted by juleei
,