Data Mining À̶õ ¹«¾ùÀΰ¡?

 

µ¥ÀÌÅÍ ¸¶ÀÌ´×ÀÇ °³¿ä : Àå³²½Ä.È«¼º¿Ï.ÀåÀçÈ£ : Data MiningÀÇ ±âº» °³³äÀº »õ·Î¿î °ÍÀÌ ¾Æ´Ï¶ó ÀΰøÁö´É ºÐ¾ßÀÇ ±â°èÇнÀ(machine learning) À̷п¡ ±× »Ñ¸®¸¦ µÎ°í ÀÖ´Ù. Áï Çö½Ç ¼¼°è¿¡¼­ µ¥ÀÌÅÍ º£À̽º¿¡ °¨ÃçÁø À¯¿ëÇÑ Á¤º¸¸¦ ij³»°íÀÚ ÇÏ´Â ¿å±¸°¡ ±â°èÇнÀ¿¡¼­ »ç¿ëµÈ ±â¹ýÀ» Database¿¡ ÀÀ¿ëÇϱ⿡ À̸£·¶´Ù. ±â°èÇнÀÀº ±ÔÄ¢À» ã¾Æ³»±â À§ÇÑ ÀÚµ¿È­µÈ À¯µµ°úÁ¤(inductive process)À̶ó ÇÒ ¼ö ÀÖ´Ù. ±â°èÇнÀ¿¡¼­´Â Æ®·¹ÀÌ´× ¼¼Æ®(training set)¶ó ºÒ¸®´Â ÀûÀº ¾çÀÇ ½ÇÇè½Ç¿ë µ¥ÀÌÅ͸¦ »ç¿ëÇÏ¿© ¾Ë°í¸®ÁòÀ» ¸¸µé¾î³»´Â ÀÛ¾÷ÀÌ´Ù. ±×·¯³ª ÀÌ·¯ÇÑ ÀÏ·ÃÀÇ ±â°èÇнÀ ÀÛ¾÷Àº Çö½Ç¼¼°èÀÇ Database¿¡´Â Àû¿ëÇϱⰡ °ï¶õÇÏ´Ù. ¿Ö³ÄÇϸé Çö½Ç ¼¼°èÀÇ Database´Â °»½ÅÀÌ ¼ö½Ã·Î ÀÌ·ç¾îÁö´Â µî ´ÙÀ̳»¹ÍÇÏ°í, ¿À·ùµµ ÀÖÀ» ¼ö ÀÖÀ¸¸ç µ¥ÀÌÅÍ°¡ ¾øÀ» ¼öµµ ÀÖ°í, ´õ¿íÀÌ ´ë·®ÀÇ µ¥ÀÌÅ͸¦ º¸À¯ÇÏ°í Àֱ⠶§¹®ÀÌ´Ù. µû¶ó¼­ µ¥ÀÌÅÍ ¸¶À̴׿¡¼­´Â Çö½Ç¼¼°èÀÇ ´ë±Ô¸ð Database¸¦ Æ®·¹ÀÌ´× ¼¼Æ®·Î °£ÁÖÇؼ­ À̷κÎÅÍ À¯¿ëÇÑ Áö½ÄÀ» ij³»´Â ÀÏ·ÃÀÇ ÀÛ¾÷ÀÎ °ÍÀÌ´Ù ........ Data MiningÀº ±âÁ¸ÀÇ Á¶È¸ µµ±¸¸¦ ´ëüÇÏ´Â °ÍÀÌ ¾Æ´Ï¶ó º¸¿ÏÇÏ´Â ±â´ÉÀ» Á¦°øÇÑ´Ù. ±âÁ¸ÀÇ Á¶È¸¹æ½ÄÀÌ Áö¿øÇÏÁö ¸øÇϴ ȯ°æ¿¡¼­ Data MiningÀ» »ç¿ëÇÏ·Á´Â °ÍÀº ÀϹÝÀûÀ¸·Î µ¥ÀÌÅÍ¿¡ ³»ÀçµÇ¾î ÀÖ´Â Á¤º¸ÀÇ 90% Á¤µµ¸¦ Â÷ÁöÇÏ´Â ±âº» Á¤º¸´Â ¹«½ÃÇÑ Ã¤ 10% À̳»ÀÇ ¼û°ÜÁø Á¤º¸¸¸À» ã°Ú´Ù´Â ¹«¸®ÇÑ ¹ß»óÀÌ´Ù. ÇÏÁö¸¸ Data MiningÀ» ÅëÇØ Ãß°¡ÀûÀ¸·Î ¾ò°ÔµÇ´Â Á¤º¸ÀÇ °¡Ä¡´Â ±×¾ß¸»·Î ¹«ÇÑÇÏ´Ù. µ¥ÀÌÅÍ ¸¶À̴׿¡¼­ ¾ò°íÀÚ ÇÏ´Â Áö½ÄÀº ¿¬°ü(association), ºÐ·ù(classification), ¼ø¼­(sequence)µî¿¡ °üÇÑ Áö½ÄµéÀÌ´Ù.

Introduction : ¼­¿ï´ë Data Mining lab : Á¶¼ºÁØ :  µ¥ÀÌÅ͸¶ÀÌ´×À̶ó´Â ¿ë¾î´Â µ¥ÀÌÅͺ£À̽º ºÐ¾ß¸¦ ¿¬±¸ÇÏ´ø ÄÄÇ»ÅÍ °úÇÐÀÚµéÀÌ ¸¸µç °ÍÀÌ°í ÇöÀç ¹Ì±¹ µîÁö¿¡¼­´Â ÄÄÇ»ÅÍ °úÇÐÀÚµéÀÇ ÁÖµµÇÏ¿¡ ACM (association for computing machinery) ÀÇ ACM SIGKDD (special interest group on knowledge discovery in database) ¿¡¼­ ¸Å³â Çмú´ëȸ°¡ °³Ãֵǰí ÀÖ´Ù.  ±×·¯³ª ½ÇÁ¦ µ¥ÀÌÅ͸¶ÀÌ´×ÀÇ ±âº» °³³äÀº Åë°èÇп¡ ±× ¹ÙÅÁÀ» µÎ°í ÀÖÀ¸¸ç, AI ¿¡¼­ °³¹ßµÈ ¸ðµ¨°ú ¾Ë°í¸®ÁòÀ» ¸¹ÀÌ »ç¿ëÇÏ°í À־ ±Ùº»ÀûÀ¸·Î ÇÐÁ¦ÀûÀÎ (inter-disciplinary) ºÐ¾ßÀÌ´Ù.   ºÐ¾ßº° ÇØ´ç ±â¹ýµéÀ» ±¸Ã¼ÀûÀ¸·Î º¸¸é ´ÙÀ½°ú °°´Ù.  ¸ÕÀú, Åë°èÇÐ ºÐ¾ßÀÇ ±â¹ýµéÀº ´Ù¾çÇÑ Àüó¸® ±â¹ý, ¼±Çü/ºñ¼±Çü ȸ±ÍºÐ¼®, K-means ±ºÁýÈ­ ¾Ë°í¸®Áò, ºÐ·ùȸ±âºÐ¼®³ª¹« ¸ðÇü (Classification and Regression Tree: CART), ºÎÆ®½ºÆ®·¡ÇÎ (bootstrapping), ¼±Çü /ºñ¼±Çü ÁÖ¼ººÐ ºÐ¼® (linear/nonlinear PCA) µîÀÌ ÀÖ´Ù.  ¶ÇÇÑ ÀΰøÁö´ÉÀÇ ±â°èÇнÀ°ú ´º·ÎÄÄÇ»Æà ±â¹ýµéÀº C4.5 ³ª¹« ¸ðÇü, ´ÙÃþÆÛ¼ÁÆ®·Ð ´º·²³×Æ®¿÷,  ·¹À̵ð¾ó º£À̽ýº ÇÔ¼ö ³×Æ®¿÷ (radial-basis function network), ÀÚ±âÁ¶Á÷Ư¡Áöµµ (Self-organizing feature map) ³×Æ®¿÷ µîÀÌ ÀÖ´Ù.  ³¡À¸·Î µ¥ÀÌÅͺ£À̽º ºÐ¾ß¿¡¼­ °³¹ßµÈ ¿¬°ü ±ÔÄ¢ ¹ß°ß ¾Ë°í¸®Áò (¡°A priori¡±),  ¼ø¼­ºÐ¼® ¾Ë°í¸®Áò µîÀÌ ¸¹ÀÌ »ç¿ëµÇ°í ÀÖ´Ù.  

µ¥ÀÌÅÍ ¸¶ÀÌ´×ÀÇ ±â¹ý : Àå³²½Ä.È«¼º¿Ï.ÀåÀçÈ£ : Data Mining ÀÇ ±â¹ý¿¡´Â ÀüÅëÀû Åë°è(¿¹: regression analysis, discriminant analysis), Decision Tree, Neural Networks, Co-Occurrence Matrix, Genetic Algorithm, K-Means Clustering µîÀÌ ÀÖ´Ù. ÀüÅëÀûÀÎ Åë°è±â¹ýµéÀº ¿À·£ ¿ª»ç¿Í źźÇÑ ÀÌ·ÐÀ» ¹è°æÀ¸·Î ÇÑ °ËÁõµÈ ±â¹ýÀ¸·Î Ÿ ±â¹ýµé¿¡ ºñÇØ ¿ùµîÇÏ´Ù. ¹Ý¸é µ¥ÀÌÅÍ °ªµéÀÇ Á¤±ÔºÐÇ¥, °øºÐ»ê(covariance) µî°ú °°ÀÌ ¿©·¯ °¡Áö Åë°èÇÐÀû °¡Á¤À» ¿ä±¸ÇÏ´Â °æ¿ì°¡ ¸¹°í, µ¥ÀÌÅÍ¿¡ ´Ù¼öÀÇ ¹üÁÖÇü(categorical) º¯¼ö°¡ Æ÷ÇԵǾî ÀÖÀ» ¶§ À̵éÀ» °¡º¯¼ö(dummy variable)·Î º¯È¯½ÃÅ°´Â °úÁ¤¿¡¼­ ¹ß»ýÇÒ ¼ö ÀÖ´Â Ä¡¿ìħ(bias) µîÀÇ ÇѰ踦 Áö´Ï°í ÀÖ´Ù. µû¶ó¼­ ÀÌ·¯ÇÑ °¡Á¤À» ¸¸Á·ÇÏÁö ¾Ê´Â µ¥ÀÌÅ͸¦ ºÐ¼®ÇÏ¿© ¾ò¾îÁö´Â Á¤º¸´Â ½Å·Úµµ°¡ ³·°í 'ÀǹÌÀÖ´Â' Á¤º¸°¡ µÉ ¼ö ¾ø´Ù. ±×·¡¼­ ±â°è ÇнÀ ÀÌ·ÐÀ» »ç¿ëÇÏ°Ô µÇ´Â °ÍÀÌ´Ù. ±×·¯³ª Åë°è´Â µ¥ÀÌÅÍ ºÐ¼® ÀÛ¾÷¿¡ Ç×»ó ±âÃÊ°¡ µÇ´Â ºÐ¾ß·Î¼­, ½ÇÁ¦·Î ±â°èÇнÀÀ» ±Ù°£À¸·Î ÇÏ´Â ±â¹ýµéÀÇ ÀÌ·ÐÀû ±Ù°Å°¡ µÇ¸ç ±â¹ýÀ» ÅëÇØ µµÃâµÇ´Â Á¤º¸¸¦ Æò°¡ÇÏ°í Çؼ®Çϴµ¥ À־µµ ¹Ýµå½Ã ÇÊ¿äÇÏ´Ù