Data Mining  과   Data Warehouse

 

데이터 마이닝 : 장남식.홍성완.장재호 지음, 대청미디어, 1999

 

1. 데이터웨어하우스의 개념

2. 데이터웨어하우스 데이터의 구조

3. 데이터웨어하우징

4. 효과적인 데이타마이닝 을 위한 데이터웨어하우스의 필요성

 

 

최근에 발표된 보고서에 따르면 선진 기업들 중에서 약 25%가 데이터웨어하우스없이 데이타마이닝을 시행하는 것으로 나타났다. 사실 분석하고자 하는 데이터의 양이 그리 많지 않을 경우에는 메인프레임에서의 데이타마이닝이 가능하다. 그러나 메임프레임이란 일상의 업무활동을 지원하는 것이 주요 임무이기 때문에 다량의 데이터를 분석하는 데이타마이닝 작업은 업무활동의 지연을 초래할 수밖에 없다. 이러한 연유로 메인프레임보다는 메인프레임의 서버 기반 복제소라 볼 수 있는 데이터웨어하우스가 구축되어 있다면 데이타마이닝을 위한 가장 이상적인 환경이라 할 수 있으며, 실제로 데이터웨어하우스의 존재는 지식발견 프로세스의 여러 단계를 줄이면서도 보다 정확한 정보를 도출할 수 있는 안정적인 환경을 제공한다.

국내에서는 90년대 중반 그 개념이 도입된 이후 데이터베이스 마케팅의 중요성이 대두되고, 다양한 OLAP 도구들이 소개되면서 향후 데이타마이닝과 같은 새로운 기법과의 접목이 이루어질 경우 활용가치가 무한하다고 판단되어짐에 따라 데이터웨어하우스 구축의 필요성이 급속히 부각되었으며, 금융, 통신, 제조, 유통 등의 다양한 분야에서 구축을 진행 중이거나 또는 완료한 사례들을 접할 수 있다.

이 장에서는 데이터웨어하우스의 일반적인 개념과 구조, 데이타마이닝을 위한 기반으로서의 역할 및 중요성 등에 대해 살펴보도록 하겠다.

1. 데이터웨어하우스의 개념

1990년 윌리엄 인먼(William Inmon)에 의해 소개된 신정보계시스템의 핵심인 데이터웨어하우스의 개념은 지금까지의 운영시스템인 호스트 컴퓨터가 가지고 있는 데이터를 한 곳에 모아 통합하고 그 곳에서 필요한 데이터를 추출, 가공, 요약하여 사용하자는 것이다. 특히 기존의 데이터베이스가 업무/거래 처리의 신속, 정확, 효율화를 목적으로 구축되어지는데 반해 데이터웨어하우스는 분석을 통한 기업의 전략 수립이나 의사결정을 효율적으로 지원하는 것을 목적으로 하며 다음과 같은 특성을 지닌다.

표 1은 기존의 데이터베이스와 데이터웨어하우스의 차이점을 구축 목적, 데이터의 성격 및 형태, 사용자의 요구사항, 활용 사례의 측면에서 비교하였다. 운영시스템으로부터 웨어하우스로 적재되는 데이터는 선별되어 가공·요약의 과정을 거치기 때문에 물리적으로 상당부분 변형이 된다. 따라서 데이터웨어하우스의 데이터는 운영 시스템 환경에서 존재하던 것과는 완전히 다른 데이터이다.

표 1 데이터베이스와 데이터웨어하우스의 비교

 

기존 데이터베이스

데이터웨어하우스

목적

정확, 효율성을 통한 업무/거래 처리

분석을 통한 전략수립/의사결정지원

데이터

휘발성, 지속적으로 갱신, 레코드 단위

시계열적, 읽기전용, 가공/요약된 데이터

형태

업무단위(예; 대부, 저축, 신용)로 분리

주제별(예; 고객, 상품)로 통합

요구사항

데이터의 신속한 입력, 갱신, 추적
데이터의 무결성

다량의 데이터를 다차원 분석 응답시간의 최소화

사례

예금입출, 대체

상품수익률 분석, 우량고객 분류

 

2. 데이터웨어하우스 데이터의 구조

운영시스템과 외부 원천으로부터 적재되어 통합된 데이터웨어하우스의 데이터는 보다 효율적인 사용을 위하여 다양한 수준으로 요약되어 관리되며, 시간이 지남에 따라 활용가치가 떨어진 데이터의 경우에는 비용이 저렴한 자기 테이프로 이동시켜 보관하거나 폐기 처분한다. 그림 1은 요약정도와 수집시기 등에 따른 데이터웨어하우스 내의 데이터 구조를 나타내고 있다. 여기서 현재의 상세 데이터가 고객개인별, 일별 매출현황을 반영하고 있다면 요약 데이터는 지역구별, 월별 매출현황일 수 있고, 필요에 따라 한 수준 더 요약하면 도별, 연도별 매출현황이 된다. 일반적으로 상세 데이터는 일상업무에 요구되는 정형적인 의사결정을 지원하는데 주로 사용되는 반면, 데이터의 요약수준이 높아질수록 전략수립이나 비정형적인 의사결정을 지원하는 경우가 많으며 주사용자 계층도 중간관리자급 이상이 된다.

그림 1 데이터웨어하우스의 구조

데이터웨어하우스 환경에서 메타데이터는 운영시스템 환경에서와는 큰 차이가 있다. 운영시스템에서 메타데이터는 시스템 개발자나 데이터베이스 관리자가 주로 이용하는데 비해, 최종사용자는 접하는 경우가 거의 없으며 그 구조를 알아야 할 필요도 없다. 그러나 데이터웨어하우스의 메타데이터는 데이터의 구조, 데이터를 요약할 때 사용된 알고리즘, 운영 데이터베이스에서 데이터웨어하우스 데이터로 변환될 때의 대응관계 등과 같은 정보를 포함한다. 이러한 정보들은 데이터웨어하우스 관리자가 시스템을 원활하게 운영할 수 있게 할 뿐만 아니라 최종사용자들이 보다 쉽고 효과적으로 필요한 정보를 찾아보는 것을 가능하게 한다. 

3. 데이터웨어하우징

'데이터웨어하우스'란 용어는 단순히 데이터가 보관되어 있는 거대한 저장고를 의미한다. 이에 반해 '데이터웨어하우징(data warehousing)'이란 데이터의 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스라고 정의할 수 있다. 데이터웨어하우징은 개략적으로 그림 2에서와 같이 데이터의 추출·변환·정제·통합, 정보도출, 활용, 데이터의 추가·갱신·삭제의 4단계로 구성된다.

그림 2 데이터웨어하우징

4. 효과적인 데이타마이닝을 위한 데이터웨어하우스의 필요성

데이터웨어하우스와 데이타마이닝은 하나의 단위기술을 의미하는데 반해, 데이터웨어하우징과 지식발견은 이러한 단위 기술을 포함하는 일련의 프로세스이다. 특히 지식발견 프로세스에서의 그림 1의 지식발견 프로세스와 그림 2의 데이터웨어하우징을 비교해 보면, 데이터를 수집하여 정제·변환시키고 필요한 정보를 추출하여 활용한다는 관점에서는 동일 도구를 가지고 있음을 알 수 있다. 그러나 가장 큰 차이점은 데이터웨어하우징은 데이타마이닝이라는 단위 기술을, 그리고 지식발견 프로세스는 데이터웨어하우스라는 단위 기술을 반드시 포함하지 않아도 무방하다는 것이다. 그럼에도 불구하고 앞서 언급한 바와 같이 많은 비용과 노력을 투자하여 구축한 데이터웨어하우스 내의 데이터를 대상으로 단지 일반질의나 OLAP 도구만을 이용하여 정보를 조회하고 분석하기에는 아쉬움이 남는다. 따라서 데이터웨어하우스에서 보다 새롭고 심도있는 정보를 찾아내기 위해서는 데이타마이닝을 도입하는 것이 바람직하다. 마찬가지로 지식발견 프로세스에서 데이터웨어하우스의 구축이 필수적이지 않다고는 하나 데이터웨어하우스의 존재는 프로세스의 여러 단계를 줄이면서도 보다 정확한 정보를 도출할 수 있는 안정적인 환경을 제공한다. 효과적인 데이타마이닝 작업을 위해 데이터웨어하우스가 지원하는 이점은 다음과 같다.