Big  Data  

 

빅 데이터 (Big Data) 란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석 할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.... 위키백과 : 빅데이터

term :

빅 데이터 (Big Data)     데이터 (Data)     데이터마이닝 (Data Mining)    머신러닝 (Machine Learning)    딥 러닝 (Deep Learning)     예측 (Prediction)    복잡계 (Complex System)    인공지능 (Artificial Intelligence)

site :

Wikipedia : Big data    위키백과 : 빅데이터

video :

빅데이터의 이해 : KC대학교 : 이상철 : 2017/10/06

 

언론정보 특강 - 빅데이터 분석의 이해와 적용, 2013년 2학기 : CTL KU : 김성태, 2013/09/03 ... 동영상 24개

 

빅데이터, 세상을 바꾸다 : YTN 사이언스 : 장원철, 2013/12/26

 

천의 얼굴, 빅데이터 : YTN 사이언스 : 장원철, 2014/02/03

 

빅데이터 왜? 무엇을? 어떻게? : 메가 HRD_HR On 시즌 3 : 마이크로소프트 정우진 컨설턴트, 2014/07/17

 

데이터는 당신의 모든 것을 알고 있다 : IT 콘서트 KBS News : 정하웅, 2014/07/31

 

데이터 과학의 힘 01 : KBS 생각의 집 : 정하웅, 2015/07/21

 

데이터 과학의 힘 02 : KBS 생각의 집 : 정하웅, 2015/09/21

 

데이터 과학의 힘 03

데이터 과학의 힘 04

데이터 과학의 응용2  01 : KBS 생각의 집 : 정하웅, 2015/09/21

 

article :

보건의료 빅데이터로 대박 벤처기업 탄생 기대 ..의사신문 : 배준열 기자 : 2017/06/28 : 이태선 심평원 의료정보융합실 실장은 27일 오전 11시 심평원 원주 본원 브리핑룸에서 출입기자협의회와 기자간담회를 갖고 올해 업무 이슈와 추진 상황을 설명했다. 심평원 빅 데이터 (Big Data) 는 의료기관, 제약기업, 식약처 등으로부터 실시간 수집·정제한 데이터로 연간 진료비 청구 14억 건, 심사 진료비 65조 원 등의 원천 데이터를 5,258억 건의 개방 DB로 구축해  개방·공유하고 있다. 특히 심평원은 보건의료 빅데이터 개방시스템을 지난해 6월 구축해 빅데이터 원격 분석 서비스, 공공데이터 개방, 보건의료 통계정보 제공, 포털서비스, 공공기관간 협업, 민간활용 지원, 빅데이터 활용 저변 확대 등 통합 서비스를 실시하고 있다. 이태선 실장은 “4차 산업혁명 (Fourth Industrial Revolution)의 도래와 함께 ‘보건의료빅데이터 개방·확대를 통한 국민보건의료 가치 향상’ 및 ‘새정부 공약의 성공적 이행’을 위해 보건의료 빅데이터 개방·제공·활용 서비스를 확대해 나가고자 한다”고 밝혔다. 이어 “이를 통해 창업 지원, 신규 일자리 창출 등 국가 미래 성장동력을 확보, 의약계와 공동연구과제 수행을 통한 연구기반 조성, 산업계 R&D 활성화를 위한 맞춤형 데이터셋 개방 확대 및 임상자료 연계, 빅데이터 융·복합 관련 국가사업 참여, 데이터셋 자동 추출 시스템 등 보건의료빅데이터개방시스템 고도화 등의 효과를 기대한다”고 덧붙였다. 심평원은 지난 2014년 본원 보건의료 빅데이터센터 (Healthcare Bigdata Hub) 를 최초로 개소한 바 있고, 현재 본원과 9개 지원에 총 10개소, 44석 규모로 빅데이터센터를 운영 중이다. 센터는 주로 제약사·치료재료 업체의 마케팅조사 및 시장동향분석 등을 위한 데이터를 지원하고 있으며, 이를 통해 지난해 기준 1,775건의 맞춤형 사용정보를 제공한 것으로 나타났다. 지난 2015년부터는 보건의료 빅데이터 활용 활성화를 위해 매년 창업아이디어 공모전을 개최하여 총 247팀 중 29팀을 선정·시상하고, 공모전을 통해 발굴된 아이디어 등이 사업화될 수 있도록 맞춤형 데이터셋, 분석 인프라 제공 및 창업 멘토링 등을 밀착 지원하고 있다. 올 하반기에는 OPEN R&D센터를 개소해 창업인큐베이팅 지원체계를 구축, 유망 창업아이템이 실제 사업화로 이어질 수 있도록 지원할 예정이다. 이태선 실장은 “보건의료빅데이터 활용 활성화를 위해 분석 지원 및 교육프로그램 제공으로 관련 지식과 노하우을 제공하고, 창업지원 및 빅데이터 분석 전문가 인력풀을 구성하는 등 보건의료산업 R&D를 활성화하기 위한 지원체계를 구축할 것”이라고 강조했다. 심평원뿐만 아니라 국민건강보험공단도 보건의료 빅데이터를 보유·관리하며 다방면적 활용 방안을 적극 추진함에 따라 업무 중복에 따른 낭비를 없애고 효율성을 높이기 위해 양 기관 유사업무를 통합해야 한다는 목소리가 일각에서 높아지고 있지만 심평원은 각각의 업무영역이 달라 곤란하다는 입장이다. 이 실장은 “심평원이 보유한 데이터는 진료내역, DUR, 의약품 유통, 의료자원 등 의료적 전문성을 바탕으로 한 분야이고, 공단이 보유한 데이터는 가입자 자격, 보험료, 건강검진, 요양보험, 공급자 등 가입자 서비스 분야로 양 기관이 보유한 빅데이터의 성격이 다르다”며 “심평원과 공단은 국민건강보험법 등에 명시된 각각의 고유 업무영역에서 수집된 데이터를 기관별 구축·개방·활용하고 있고, 기관간 정보 공유 활용을 통해 업무 중복을 최소화하는 전략을 수립하고 있다”고 밝혔다. 빅데이터와 인공지능 (Artificial Intelligence) 심사 연계 방안과 관련해서는 “전국 의료기관으로부터 청구된 빅데이터와 40년간 축적된 심사노하우를 바탕으로 AI 기반 전산심사를 지속적으로 확대하고 있다”면서 “특히 오는 7월 1일 ‘심사평가업무혁신단’을 신설해 AI 활용 가치기반 심사·평가 체계를 발전시켜 나갈 것”이라고 강조했다. 심평원은 올해 빅데이터개방시스템 고도화를 위해 약 17억 원의 예산을 투입해 △개방시스템 데이터셋 자동화 및 신청절차 개선 등 △빅데이터분석DB 이중화 및 스토리지 증설 △보건의료분석시스템 원격계정 증설 △보건의료분석시스템 원격 사용자별 분석작업 사용공간 분할 등을 추진한다. 보건의료 빅데이터 활성화에 따라 개인정보유출에 대한 우려도 높아지고 있는데 이와 관련 이태선 실장은 개인정보보호를 위해 “현재 보건의료 빅데이터개방시스템 구축 및 제공·활용 시 ‘개인정보보호법’ 및 행정자치부 ‘비식별화 가이드라인’을 준수하고 있고 내부 업무망과 분리된 별도의 개방시스템을 구축했다”고 밝혔다. 또한 “개인정보보호를 위한 비식별화 조치(대체키 사용 및 마스킹, 범주화 등)와 개방시스템을 통해 자유롭게 분석한 후 반출데이터 검토 후 결과값만 반출하는 등 개인정보유출이 원천 차단된 방식으로 운영하고 있다”고 덧붙였다. 이태선 실장은 “심평원이 보유한 보건의료 빅데이터를 다양하게 연계·활용할 수 있는 지원방안을 끊임 없이 모색하고 있다”면서 “이를 통해 우리나라에도 대박을 터트리는 벤처회사가 등장하는 등 가시적인 성과가 하루 빨리 도출되길 기대한다”고 밝혔다.

빅데이터 분석하는 의사입니다 - 아주의대 의료정보학과 한현욱 교수 - 생물정보학에 대한 호기심이 의사의 길 열어줘 : 메디게이트 : 이지원 기자 : 2017/06/16 : ICT 융합 혹은 4차 산업혁명이라는 단어를 떠올리면 자동으로 따라오는 단어 중 하나인 '빅데이터'. 이 빅데이터의 혜택을 본 이들 중 한 명이 다름 아닌 아주의대 의료정보학과 한현욱 교수다. 이제는 "저는 헬스케어 빅데이터 하는 사람(의사)입니다”라는 한 마디면 대부분의 사람들이 그가 하는 일을 이해하기 때문이다.  그는 컴퓨터공학(데이터베이스 전공) 과 의학을 동시에 전공하고 의료 빅 데이터 (Big Data) 를 연구하는 국내 몇 안되는 의사 중 한 명이다. 그가 연구하고 있는 '의료정보학 (Medical Informatics)'은 환자의 질병, 치료 및 생체신호 등에 관한 임상 데이터와 병원정보시스템(HIS) 기술을 위주로 하는 '임상정보학' 분야와 유전체의 서열과 그들 간의 상호작용을 주로 연구하는 '(분자)생물정보학' 분야로 나뉜다. 그동안 독자적인 연구를 진행해오던 이 두 분야가 최근에는 상호보완적으로 융합되어 가고 있는 추세인데, 한현욱 교수는 이 두 분야의 경계에서 융합 연구를 진행하고 있다. 또한, 그가 속한 아주의대 의료정보연구센터는 ▲보건의료 분자 및 임상 데이터를 이용한 질환 네트워크 구축과 해석 ▲공통데이터모델(CDM)의 확장(유전체 데이터 저장) 모델 개발 ▲분자 및 임상 데이터를 이용한 신약재창출(Drug Repositioning) 기술이라는 세 가지 테마를 주력으로 연구하고 있다. ICT 융합을 외치는 요즘, 희소 가치가 전에 없이 높아보이는 한현욱 교수에게 의료 빅데이터에 대한 이야기와 공학 석사까지 마친 그가 의사가 된 사연을 들어봤다. 의료 빅데이터에 대한 관심 뜨거워 ... 최근에는 의료정보학, 구체적으로는 의료 빅데이터에 대한 관심이 과히 뜨겁다 할 만하다. 국내에서도 지난해부터 복지부를 중심으로 본격적으로 보건의료 빅데이터 연구비를 지원하기 시작했고, 올해는 정보통신산업진흥원(NIPA) 주관으로 수백억 원에 달하는 의료정보 관련 국책과제가 나왔다. 앞으로도 한국정보화진흥원(NIA)을 비롯해 복지부, 산업자원부 등에서 줄줄이 보건 의료빅데이터에 관한 크고 작은 과제가 대기 중이다. 아주의대의 경우 의료정보 분야에 적극 투자해온 덕분에 국책과제 수주에 유리한 입장이다. 정부기관 외에 삼성, SK 등의 대기업과 외국의 크고 작은 글로벌 제약사에 이르기까지 민간 기업도 아주의대 의료정보학과에 협업을 요청하고 있는 실정이다.  현재 아주의대 의료정보학센터가 외부기관과 함께 진행하는 프로젝트로는 클라우드 기반의 의료정보 공유시스템 개발, 데이터 기반의 신약개발 파이프라인 구축, 건강보험공단 데이터를 활용한 질환네트워크 구축, '열나요' 앱을 활용한 실시간 독감예측 인공지능 연구, 건강검진 자료와 유전체 데이터를 활용한 연계 분석 파이프라인 확보, 유전체 공통자료모델(GCDM) 개발, 약물교란 유전체 분석 등이 있다. 아주의대 의료정보학과에는 3명의 전임 교수(본인 포함)를 비롯해 대학원생과 연구원, 행정직원을 포함해 40명이 넘는 인력이 포진해 있는데다 석박사 과정 대학원생들을 추가로 더 채용할 계획이다. 국내외를 통틀어 의료정보학 분야의 단일 연구팀으로 세계적인 인프라를 이미 갖췄다고 해도 손색이 없을 정도다. 세 명의 전임교수는 빅데이터의 세 꼭지인 임상데이터(박래웅 교수), 유전체데이터(본인) 및 라이프로그 데이터(윤덕용 교수)의 공통자료모델(CDM) 연구를 각각 책임지고 있다. 이 외에도 개인적으로 네트워크의학이라는 고유 연구 영역을 갖고 있는데, 이는 질병 발생과 유전체와 약물 반응 등에 대한 메커니즘을 오브젝트들의 상호관계의 관점에서 연구하는 학문이다.  "미래에는 보건의료 빅데이터 전문 분과가 생길지도 모를 일 ... '의료 빅데이터'는 앞서 언급한 바와 같이 임상 데이터와 유전체 데이터를 포괄하는 개념이다. 유전체 빅데이터는 그동안 자연과학분야의 생물정보학 전공자들이 주도해오면서 인력풀이 어느 정도 형성된 반면, 의대(의사)를 중심으로 움직일 수 밖에 없는 임상 빅데이터 분야의 연구자는 손에 꼽을 정도다. 국내의 경우 생물정보학과 임상정보학의 인력풀 비율이 20:1 정도로 볼 수 있다. 의대 전임 인력으로서 공학적 지식을 겸비한 의사이자 의료빅데이터 전문가는 아주의대의 박래웅 교수와 서울의대의 김주한 교수를 국내 1세대로 꼽을 수 있다. 본인은 의료정보학분야의 1.5세대, 그리고 지금 공부하고 있는 학생들이 2세대 정도라고 볼 수 있는데 확실히 전에 비해 여건이 좋아진 걸 느낀다. 미래 의료는 기술의 발달로 새로운 영역을 만들어 분명 지금과는 또 다른 변화를 겪게 될 거라 생각한다. X-ray의 발견이 지금의 영상의학과 전문의를 만들었고, 현미경의 개발이 병리학과 전문의를 만들었듯이. 보건의료 빅데이터를 위한 전문 분과가 생길지도 모를 일이다. 한 보고서에 따르면 의료 빅데이터 시장이 연간 15~20%씩 성장하고 있다고도 한다. 최근에는 대한의료정보학회에서 정보의학인증의(CPBMI) 제도를 운영하고 있는데, 교육 기간(1년)과 난이도(팀프로젝트 및 시험)에도 불구하고 이미 전국에 100명 이상의 의사들이 인증의를 획득하기도 했다. 향후에는 '의료정보학과를 가진 의대냐 아니냐'가 연구비 수주의 규모를 결정할 수도 있다고 본다. 지금도 막대한 국가 연구비가 투입되고 있는데, 아주대와 같이 의료정보 분야에 미리 투자한 학교만이 수혜를 보고 있기 때문이다. 임상 빅데이터 분야에 있어서도 연구가 활성화되기 위해서는 관련 인력 양성이 무엇보다 중요한데, 이제는 의학회 차원에서 학교와 병원 인증에 있어서 의료정보학과 개설 여부를 논의할 시점이 되었다고 본다. 빅데이터를 활용한 '질환 네트워크 모델', 상업화 눈앞 ... 공대의 피가 섞인 탓인지 사업에도 관심이 많다. 언젠가는 이론에만 그치지 않고 연구실 창업을 통해 연구 결과를 상업화할 생각을 갖고 있다. 최근에 우리 연구실에서 개발해 특허 취득과 논문 발표를 준비 중인 질환 네트워크 모델을 한 기업(미소정보기술)의 임상데이터웨어하우스(CDW) 솔루션에 포함시키는 전격적인 결정을 내리기도 했다. 우리가 만든 걸 어떻게 상업화 할까 고민하던 중 무턱대고 미소정보기술 안동욱 대표에게 전화해서 만나자고 했다. 그냥 만나기가 어색해 특강을 부탁하긴 했는데 사실 그보다 우리 기술을 설명하느라 목이 다 쉬어 버렸을 정도였다. 안동욱 대표는 그때까지만 해도 나를 평범한 임상의사라 생각하고 있었는데, 기술을 설명할 때 전부 IT 용어만 사용하고  IT보다 더 IT스러워 보여서 당황했다고 한다. 그래서 당시 우리 기술보다 나의 정체성에 대해 관심을 더 보였는데, 지금은 우리 기술의 상업화에 도움을 많이 주고 있다.  생물정보학 청강으로 시작된 호기심이 의사의 길로 이끌어 ... 학부와 석사를 컴퓨터공학, 그 중에서도 데이터베이스를 전공했다. 석사과정 때는 현재 SAP의 전신인 하나(HANA) DB의 인메모리 데이터베이스 시스템 개발에 참여하기도 했다. 그러던 중 의료 및 생물정보학 (Bioinformatics) 에 관한 강연을 우연히 듣게 됐는데, 인체로부터 생산되는 데이터가 매우 다양하고 방대하다는 것에 놀랐다. 이것을 계기로 이 분야에 작은 호기심이 생겨났다. 박사과정 진학을 생각하던 터라 자연스럽게 이 분야 정보를 수집하기 시작했고, 그러다보니 점점 더 흥미가 생겨 결국 호기심을 넘어 섰다. 연고가 없음에도 외국의 관련 연구자들에게 조언을 구하는 메일을 보내기 시작했다. 그런 노력을 가상히 여겼는지 몇몇 연구자로부터 답변을 받을 수 있었다. 그런데 대부분의 조언은 이 분야를 제대로 공부하기 위해서는 결국 의학을 알아야 한다는 사실이었다. 여러 고민 끝에 결론을 내렸다. '의학공부 후에 박사 진학'이라는 인생 목표를 다시 설계해야겠다고. 지금 생각하면 '미친 짓'이었다. 그 당시 의대 진학은 단 한번도 생각해 본 적이 없었기에 의대 공부가 그렇게 힘들 줄 전혀 예상하지 못했다. 그리고 서른이 넘은 아들의 취직과 결혼을 기다리던 부모에게 의대 진학이라는 선전포고를 하는 것도 쉬운 일은 아니었다. 게다가 남들이 하는 평범한 임상의사가 아닌 돈 안되는 연구자의 길을 간다는 걸 알리는 것은. 하지만 차의학전문대학원에 진학해 의학공부를 시작하면서 단 한 번도 본래의 목표(의료정보학 및 네트워크 의학 연구)를 잊은 적이 없었다. 박사 과정에서는 의학과 컴퓨터를 융합한 의료정보학을 전공했는데, 이미 컴퓨팅 기술과 의학의 학문적 특징을 어느 정도 파악하고 있었기에 남들보다 훨씬 빠르게 성장할 수 있었다. 의대생 후배들에게…"남이 가지 않은 길에 대한 막연한 두려움 갖지 말기를" ... 나는 사실 미래에 대한 전망을 보고 시작한 게 아니라 그냥 좋아해서 의료정보학을 공부했다. 그 때까지만 해도 세상이 이렇게 될지 전혀 예상하지도 못했다. 호기심으로 시작했는데 어느 순간 빅 데이터 (Big Data) 란 얘기가 나오고, 인공지능 (Artificial Intelligence) 이야기가 유행했다. 나는 원래 하던거였는데. 의대생들의 특징 중 하나가 남이 안간 길에 대한 막연한 두려움이 많다는 거다. 공대생은 석박사로 경영학을 공부하기도 하고, 문과생들은 컴퓨터 공부를 하는 경우도 많다. 심지어 약대 출신들도 약국이 아닌 연구소나 제약회사에서 근무하는 경우가 꽤 된다. 그러나 유독 의대생들은 임상의사의 길만 고집하는 경우가 많다. 의대 교육과정도 온통 임상의사가 되는 것에만 집중이 되어 있다. 여기서 벗어나 자신이 정말 흥미와 보람을 느끼는 것을 찾아서 했으면 좋겠다. 취미도 직업이 되면 재미가 없어진다는 말이 있는데, 뚜렷한 소명 의식이 없다면 보람 없이 하루에 수십 혹은 수백 명의 환자를 보는 기계적인 삶을 살지는 않았으면 좋겠다. 만약 의료정보학을 연구하고 싶다면 의학지식이나 생물학지식, 전산 지식뿐만 아니라 물리학, 통계학, 수학 등 다양한 분야의 지식들이 필요하다. 그래서 컴퓨터공학, 생물학, 경영학, 수학 출신 등 다양한 전공 학생들이 들어오고 있는 실정인데, 의학 전공자들 중에도 이 분야에 관심을 갖고 연구에 참여하기를 기대해 본다.

빅데이터 어디서 배워야 하나? : 한현욱 : 2016/07/02 : 최근, 어디서부터인지 몰라도 갑자기 빅데이터란 녀석이 나타났다. 빅데이터란 단어 자체가 왠지 모르지만 뭔가 있어 보인다. 여기저기서 우후죽순으로 빅데이터 관련 워크샵, 학회, 학원들이 나타나고 있다. 국가에서는 빅데이터 산업을 국가 핵심 산업으로 여기고 국가에서 보조금을 부담할테니 배우라고 한다. 다른 산업분야와 발맞춤을 한 것인지는 몰라도 최근 의료계에서도 빅데이터에 관심이 매우 뜨겁다. 각 의료계 학회마다 빅데이터에 이슈들을 하나씩 넣는게 유행처럼 되어 버렸다. 빅데이터를 안배우면 안될 것 같다. 그 녀석 안에 뭔가 특별한게 있을 거 같다. 그럼, 어디서 배워야 할까? 국가 보조금을 보조해 줘서 50만원 정도면 배울 수 있다고 하는데 동네 학원을 다녀야 할까? 개인 프로그래머가 몇 백만원 짜리 빅데이터 강좌를 만들어 SNS를 통해 선전하는데 이런 강좌를 듣는 것은 어떨까?  최근 [빅데이터 무얼 배워야 하나?]를 포스팅 후에 몇몇 사람들이 빅데이터 전문가가 되고 싶은데 python이나 sql을 잘 가르치는 곳이 어딘지 물어본다. 이런 것을 고민하는 사람들은 이미 빅데이터에 관해 이곳저곳에서 정보를 수집중에 있는 사람들일 것이다. 이런 사람들에게 명확히 말해두고 싶은 것은 학원에서 가르쳐는 주는 빅데이터 분석을 위한 여러 컴퓨터 프로그램과 통계 분석 도구 강좌는 어디까지나 목적을 위한 도구라는 것이다. 분석하는 데이터에 대한 도메인 지식이 없이는 본인이 소속된 집단내에서 그저 분석기 (Analyizer)로만 역할을 할 수밖에 없다. 각 도메인의 문제의식을 가진 사람들이 도메인 지식을 바탕으로 도메인에 관련된 데이터의 특징을 이해하는 것이 빅데이터 전문가로써 출발점이 아닐까 생각한다. python을 현란하게 다룰 수 있고 SQL문을 완벽하게 소화해내서 어떤 Query던 만들어 낼수 있다고 하여 빅데이터 전문가가 될수 있는 것이 아니다. 의료 분야의 전문가와 경영분야 전문가는 서로 다루는 데이터도 다를 뿐만 아니라 학문의 패러다임도 완전히 다르다. 같은 의료 분야라 할지라도 하위 의료분야에 대한 전문분야 또한 완전히 다르다. 내과를 전공한 의사와 정신과를 전공한 의사들은 환자로부터 얻고자 하는 데이터 자체도 다를 뿐만 아니라 연구의 패러다임도 상당부분 다를 수 있다. 빅데이터의 전문가가 되기 위해서 해당 도메인의 문제를 데이터의 관점에서 해결하기 위해 프로젝트를 통해 배워야 한다. 결국, 기술적인 문제는 사설 학원을 통해 어느 정도는 배울수 있을지는 몰라도 전문가로써는 활동하기에는 사실상 한계가 있다. 빅데이터에 관심있고 열심히 배울 자세가 되어 있는 사람이라면이라면 python, R, SQL과 같은 기술은 6-12개월 정도면 충분히 배울 수 있다. 하지만, 도메인에 관한 지식없이 이러한 기술적인 요인들만 습득한다면 서로 단절된 지식 체계내에서 빅데이터에 대한 여러 가지 오해가 생길수 있다. 인터넷을 뒤지면 빅데이터에 관한 무료로 운영되는 기술 강좌는 널리고 널렸다. 전 세계의 수많은 빅데이터분석가들이 게시판을 통해 실시간으로 질문하고 실시간으로 대답한다. 따라서, 빅데이터를 배우기 위해서는 팀프로젝트를 하기 위한 파트너를 하루 빨리 만나길 추천한다. 그중에 한명 정도는 분석하고 하는 데이터를 보유한 도메인 전문가 이어야 하고 다른 한명은 빅데이터 기술을 어느정도 알고 있는 사람이면 좋다. 대학의 빅데이터 관련 연구실에 인턴으로 근무해 보는것도 좋다. 이럴 경우 본인의 능력에 따라 일정한 돈도 받으면서 배울수도 있다.  기술적인 측면은 인터넷에 돌아다니는 무료강좌와 서점의 책 한권 정도면 충분하다. 모르는것은 구글신에게 물어보면 다 알려주실 것이다.

빅데이터 핵심은 '빅' 아닌 빠른 피드백 : 조선일보, 채민기 기자, 2015/04/15 : "빅데이터 분야에서 새로운 것은 '빅(big·대규모)' 부분이 아닙니다. 데이터 분석 결과를 기업을 비롯한 여러 조직의 의사 결정에 바로 반영할 수 있게 됐다는 점이 중요하죠." 대규모 데이터를 분석해 의미 있는 결과를 뽑아내는 빅데이터 기술은 최근 산업계 전반에서 주목하는 화두다. 13일 서울 관악구 서울대 빅데이터연구원에서 만난 미국 스탠퍼드대 컴퓨터공학과 헥터 가르시아-몰리나 (Garcia-Molina) 교수는 "빅데이터는 연필과도 같다"고 말했다. 누구에게나 필요하고, 어디에나 쓰일 수 있다는 뜻이다. 가르시아-몰리나 교수는 미 대통령 정보기술 자문위원회(PITAC) 위원을 지낸 컴퓨터공학의 권위자다. 구글 공동 창업자 래리 페이지와 세르게이 브린의 대학원 시절에 프로젝트 지도교수이기도 했다. 17일까지 서울에서 열리는 빅데이터 국제학술회의 'ICDE' 참석차 한국을 방문했다. 그는 "데이터를 분석해 의사 결정에 참고하는 건 인간이 옛날부터 해왔던 일"이라며 "최근 떠오르는 빅데이터의 핵심은 이제 실시간으로 시사점을 얻을 수 있게 됐다 (realtime feedback) 는 것"이라고 말했다. 대규모 데이터를 분석하면 그만큼 상세하고 정확한 결과를 얻을 가능성이 높아지지만, 규모 자체가 핵심은 아니라는 얘기다. 그는 14일에는 '데이터 크라우드소싱 (data crowdsourcing)' 을 주제로 기조연설을 했다. 수많은 군중(crowd)의 활동으로부터 데이터를 얻어 분석하는 방법이다. 그는 "컴퓨터로는 풀기 어려운 과제들을 이 방식으로 해결할 수 있다"고 말했다. 그는 빅데이터가 연구·의료 분야에도 활용 가능하다고 전망했다. "예전의 사회과학 연구가 학생 10여명을 모아놓고 설문하는 식이었다면 이제는 인터넷으로 수만명의 행동을 관찰하며 일정한 패턴을 찾아냅니다. 빅데이터가 의사들의 판단 근거가 되기 때문에 의료 분야에서도 변화가 올 수 있습니다." 인터넷 보급 초창기였던 1994년, 미국 정부는 쉽고 정확한 정보 검색 환경을 구축하기 위해 6개 연구 프로젝트를 선정했다. 이 중 스탠퍼드대가 진행한 프로젝트의 연구 책임자가 가르시아-몰리나 교수였다. 래리 페이지와 세르게이 브린은 이 프로젝트에 참여하며 연구한 내용을 바탕으로 1998년 구글을 창업했다. 그는 현재 구글 최고경영자(CEO)를 맡고 있는 래리 페이지와의 일화도 소개했다. 프로젝트에 참여한 페이지는 검색엔진에서 웹페이지 정보를 수집·분석하는 프로그램(크롤러)을 만들었다. 첫 번째 프로토타입(시제품)은 스탠퍼드대 내부 웹페이지가 분석 대상이었다. 이후 대상을 늘리려다 보니 고성능 컴퓨터가 필요해졌다. "래리가 연구책임자였던 내 연구실에 찾아와 두 번째 프로토타입을 만들겠다고 하더군요. 분석 대상에 다른 대학들도 포함할 것인지, 어느 정도 범위까지 확장할 생각인지 묻자 래리는 '모든 것(everything)을 하겠다'고 했습니다." 그는 "그 이야기를 듣고 연구비를 주자 래리가 직접 학교 근처의 전자매장 프라이스(Fry's)에서 부품을 사다가 컴퓨터를 만들었다"며 "껍데기를 레고 블록으로 만든 그 컴퓨터가 지금도 스탠퍼드대에 전시돼 있다"고 말했다.