Data  Mining

 

"Data mining은 데이터에서 패턴 (patterns), 연관 (associations), 변화 (changes), 예외 (anomalies), 규칙 (rules), 통계적으로 중요한 구조와 사건 (event) 들을 찾아내는 반자동(semi-automatic) 시스템이다. 즉 데이터에서 지식을 추출해 내려는 시도이며 여러 가지 면에서 전통적인 통계와는 다르다......"

Data Mining 이란 대량의 데이터로부터 새롭고 의미있는 정보를 추출하여 의사결정에 활용하는 작업이라 정의된다. mining 이란 "광물을 캐다"라는 의미이며 대용량의 Database 에서 중요한 정보를 캔다는 의미이다. 자동화되고 지능을 갖춘 Database 분석기법으로 90년대 초반부터 지식발견 (KDD: Knowledge Discovery in Databases) 이라는 이름과 혼용되었다.   

definition   term   site    book    lab   demo   paper

Data Mining의 기본 개념은 새로운 것이 아니라 인공지능 분야의 기계학습 (Machine Learning) 이론에 그 뿌리를 두고 있다. 즉 현실 세계에서 데이터 베이스에 감춰진 유용한 정보를 캐내고자 하는 욕구가 기계학습에서 사용된 기법을 Database 에 응용하기에 이르렀다. 기계학습은 규칙을 찾아내기 위한 자동화된 유도과정 (inductive process) 이라 할 수 있다. 기계학습에서는 트레이닝 세트 (training set) 라 불리는 적은 양의 실험실용 데이터를 사용하여 알고리즘을 만들어내는 작업이다. 그러나 이러한 일련의 기계학습 작업은 현실세계의 Database 에는 적용하기가 곤란하다. 왜냐하면 현실 세계의 Database 는 갱신이 수시로 이루어지는등 다이내믹하고, 오류도 있을 수 있으며 데이터가 없을 수도 있고, 더욱이 대량의 데이터를 보유하고 있기 때문이다. 따라서 데이터 마이닝에서는 현실세계의 대규모 Database 를 트레이닝 세트로 간주해서 이로부터 유용한 지식을 캐내는 일련의 작업인 것이다.

Introduction : 서울대 Data Mining lab : 조성준 :  데이터마이닝이라는 용어는 데이터베이스 분야를 연구하던 컴퓨터 과학자들이 만든 것이고 현재 미국 등지에서는 컴퓨터 과학자들의 주도하에 ACM (association for computing machinery) 의 ACM SIGKDD (special interest group on knowledge discovery in database) 에서 매년 학술대회가 개최되고 있다.  그러나 실제 데이터마이닝의 기본 개념은 통계학에 그 바탕을 두고 있으며, AI 에서 개발된 모델과 알고리즘을 많이 사용하고 있어서 근본적으로 학제적인 (inter-disciplinary) 분야이다.   분야별 해당 기법들을 구체적으로 보면 다음과 같다.  먼저, 통계학 (Statistics) 분야의 기법들은 다양한 전처리 기법, 선형/비선형 회귀분석 (Regression Analysis), K-평균 군집화 알고리즘 (K-means Clustering Algorithm), 분류회기분석나무 모형 (Classification and Regression Tree: CART), 자율향상 (Bootstrapping), 선형 /비선형 주성분 분석 (linear/nonlinear PCA) 등이 있다.  또한 인공지능 (Artificial Intelligence) 의 기계학습과 뉴로컴퓨팅 (Neural Network) 기법들은 C4.5 나무 모형, 다층 퍼셉트론 (Multilayer Perceptron),  레이디얼 베이시스 함수 네트웍 (radial-basis function network), 자기조직화 맵 (Self-Organizing Map) 등이 있다.  끝으로 데이터베이스 분야에서 개발된 연관 규칙 발견 알고리즘 (A priori),  순서분석 알고리즘 등이 많이 사용되고 있다 .......

지식 탐사 과정, 데이터 마이닝 작업, 데이터 마이닝 방법론  : 성신여대 Data Engineering lab : 박종수 : 아직도 데이터베이스에서 지식탐사 (Knowledge Discovery in Databases : KDD) 와 데이터마이닝 (data mining) 에 대해서 약간의 혼돈이 있다. 낮은-수준의 데이터에서 높은-수준의 지식으로 바꾸는 전체 과정을 지칭하기 위해 KDD 란 용어를 사용한다. KDD 의 간단한 정의는 다음과 같다 : 데이터베이스에서 지식 탐사는 데이터에서 유효하고, 귀하고, 잠재적으로 유용하고, 궁극적으로 이해될 수 있는 패턴을 알아내는 쉽지않은 과정이다. 또한 관찰된 데이터로 부터 패턴이나 모델의 추출을 데이터마이닝의 일반적으로 사용되는 정의로 채택한다. 비록 지식탐사 과정의 핵심에 있지만, 이 단계는 보통 전체 노력의 작은 부분 (15%에서 25%로 추정된다) 을 이룬다. 그러므로 데이터 마이닝은 전체 KDD 과정에서 단지 한 단계이다. 예를 들면 다른 단계들은 다음을 포함한다 .....

Data Mining 도구는 SAS의 Enterprise Miner, SPSS의 Clementine, IBM의 Intelligent Miner 등과 같이 여러 가지 기법들을 지원하여 Data Mining의 다양한 작업을 가능하게 하는 범용제품군에서, Rulequest사의 See5 이나 Neuro Dimension사의 NeuroSolutions 등과 같이 특별히 하나의 기법만을 지원하는 전용제품군까지 다양하다.