µ¥ÀÌÅÍ ¸¶ÀÌ´×ÀÇ ±â¹ý

 

µ¥ÀÌÅÍ ¸¶ÀÌ´× : Àå³²½Ä.È«¼º¿Ï.ÀåÀçÈ£ ÁöÀ½, ´ëû¹Ìµð¾î, 1999

 

1. ±¤ÀÇ ´ë ÇùÀÇÀÇ ºÐ·ù

2. ÀÇ»ç°áÁ¤³ª¹«(Decision Tree)

(1) ÀåÁ¡

(2) ´ÜÁ¡

3. ½Å°æ¸Á(Neural Networks)

(1) ÀåÁ¡

(2) ´ÜÁ¡

4. µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º(Co-Occurrence Matrix)

(1) ÀåÁ¡

(2) ´ÜÁ¡

5. K-Æò±Õ±ºÁýÈ­(K-Means Clustering)

(1) ÀåÁ¡

(2) ´ÜÁ¡

 

data miningÀÇ °³¿ä¿¡¼­ ¿ì¸®´Â Áö½Ä¹ß°ß(KDD)Àº µ¥ÀÌÅͷκÎÅÍ À¯¿ëÇÑ Á¤º¸¸¦ ¹ß°ßÇÏ´Â ÇÁ·Î¼¼½º Àü °úÁ¤ÀÌ°í, data miningÀº Áö½Ä¹ß°ß ÇÁ·Î¼¼½º Áß¿¡¼­ µ¥ÀÌÅͷκÎÅÍ Á¤º¸¸¦ ÃßÃâÇϱâ À§ÇØ ±â¹ýÀ» Àû¿ëÇϴ ƯÁ¤´Ü°è¶ó Á¤ÀÇÇß´Ù. ƯÈ÷ data mining ±â¹ýÀ» ¼±Á¤ÇÏ¿© µ¥ÀÌÅÍ¿¡ Àû¿ëÇÏ´Â °úÁ¤Àº Áö½Ä¹ß°ß ÇÁ·Î¼¼½º Áß¿¡¼­µµ °¡Àå Èï¹Ì·Î¿î ´Ü°èÀÓÀÌ ºÐ¸íÇÏ´Ù. Áö±Ý±îÁö ¾Ë·ÁÁø data mining ±â¹ýµéÀº ±× Á¾·ù°¡ »ó´çÈ÷ ´Ù¾çÇÒ »Ó ¾Æ´Ï¶ó Áö±Ýµµ »õ·Î¿î ±â¹ýµéÀÌ ´ëÇаú ¿¬±¸¼Ò¸¦ ÅëÇØ °è¼Ó ¼Ò°³µÇ°í ÀÕ´Ù. ÀÌ Áß¿¡¼­µµ ÀÌ·ÐÀûÀÎ °ËÁõÀ» °ÅÃÄ »óÇ°Àû °¡Ä¡¸¦ ÀÎÁ¤¹ÞÀº ÀϺΠ±â¹ýµéÀº ¼ÒÇÁÆ®ÀûÀÎ °ËÁõÀ» °ÅÃÄ »óÇ°Àû °¡Ä¡¸¦ ÀÎÁ¤¹ÞÀº ÀϺΠ±â¹ýµéÀº ¼ÒÇÁÆ®¿þ¾î °ø±Þ¾÷üµé¿¡ ÀÇÇØ »ó¿ëÈ­µÇ¾î ½ÃÀå¿¡ µîÀåÇÏ°í ÀÕ´Ù. ±×·¯³ª data miningÀ» óÀ½ Á¢ÇÏ´Â Ãʺ¸ÀÚ »Ó¸¸ ¾Æ´Ï¶ó ½ÇÁ¦ »ç·Ê¿¡ Àû¿ëÇغ» °æÇèÀÌ ÀÖ´Â »ç¶÷µé¿¡°Ôµµ ÀڽŵéÀÇ »óȲ¿¡ ÀûÇÕÇÑ data mining ±â¹ýÀ» ¼±ÅÃÇÏ´Â ÀÛ¾÷Àº ±×¸® ½±Áö ¾Ê´Ù. ÀÌ°ÍÀº data mining ÀÛ¾÷ À¯Çü¿¡ °ü°è¾øÀÌ °¡Àå Ź¿ùÇÑ ¼º´ÉÀ» Á¦°øÇϴ ƯÁ¤±â¹ýÀÌ Á¸ÀçÇÏ´Â °Íµµ ¾Æ´Ï°í À¯»ç ±â¹ýÀ̶ó°í ÇÏ´õ¶óµµ ºÐ¼® ´ë»óÀÌ µÇ´Â µ¥ÀÌÅÍÀÇ Æ¯¼ºÀ̳ª µµÃâÇÏ°íÀÚ ÇÏ´Â Á¤º¸ÀÇ ¼º°Ý¿¡ µû¶ó »óÀÌÇÑ °á°ú¸¦ ³ºÀ» ¼ö Àֱ⠶§¹®ÀÌ´Ù.
  ÀÌÀå¿¡¼­´Â data mining ±â¹ýµéÀÇ Á¾·ù¸¦ »ìÆ캸°í ±× Áß¿¡¼­ °¢ ÀÛ¾÷ À¯Çüº°·Î °¡Àå ¸¹ÀÌ »ç¿ëÇÏ´Â ±â¹ýµéÀ» °£´ÜÇÑ »ç·Ê¸¦ °çµé¿© ¼Ò°³ÇÏ·Á°í ÇÑ´Ù. ±×·¯³ª ȸ±ÍºÐ¼® (regression analysis)À̳ª ÆǺ°ºÐ¼® (discriminant analysis) µî°ú °°ÀÌ ÀÌ¹Ì ³Î¸® ¾Ë·ÁÁ® ÀÖ´Â ÀüÅëÀûÀÎ Åë°è±â¹ý¿¡ ´ëÇÑ ¼Ò°³´Â Á¦¿Ü½ÃÄ×´Ù. ÀÌ¿Í ´õºÒ¾î ÀûÀýÇÑ data mining ±â¹ýÀ» ¼±Á¤Çϱâ À§Çؼ­´Â ±â¹ýÀÇ ±Ù°£ÀÌ µÇ´Â ÀÌ·ÐÀ̳ª ¾Ë°í¸®ÁòÀ» È®½ÇÈ÷ ÀÌÇØÇÏ´Â °ÍÀÌ ¹Ù¶÷Á÷Çϳª, À̵éÀ» ³Ê¹« °­Á¶ÇÏ´Ù º¸¸é ÀÚÄ© Ãʺ¸ÀÚµéÀÇ data mining¿¡ ´ëÇÑ Èï¹Ì¿Í °ü½ÉÀ» ¹Ý°¨½Ãų ¼ö ÀÖÀ¸¹Ç·Î data miningÀÇ Àü¹ÝÀûÀÎ °³³ä°ú »ç·Ê¸¦ ¼Ò°³ÇÑ´Ù.

 

1. ±¤ÀÇ ´ë ÇùÀÇÀÇ ºÐ·ù

  ÀϹÝÀûÀ¸·Î µ¥ÀÌÅ͸¦ ºÐ¼®Çϴµ¥ »ç¿ëµÇ´Â ±â¹ýµéÀº ´ÙÀ½°ú °°´Ù.

  data mining ±â¹ýÀ̶õ ´ë·®ÀÇ µ¥ÀÌÅͷκÎÅÍ »õ·Ó°í ÀǹÌÀÖ´Â Á¤º¸¸¦ ÃßÃâÇÏ´Â ±â¼úÀÌ´Ù. µû¶ó¼­ À§¿¡¼­ ³ª¿­ÇÑ ±â¹ýµéÀº °øÈ÷ µ¥ÀÌÅͷκÎÅÍ Á¤º¸¸¦ »Ì¾Æ³»´Â ±â´ÉÀ» Á¦°øÇϱ⠶§¹®¿¡ ³ÐÀº Àǹ̿¡¼­ data mining ±â¹ýÀ̶ó Çؼ®ÇÒ ¼ö ÀÖÀ¸¸ç, ÀϺΠdata mining °ü·Ã ¼­Àûµéµµ ÀÌ·¯ÇÑ Çؼ®¿¡ µû¸£°í ÀÖ´Ù. ±×·¯³ª ÀϹÝÁúÀÇ ½Ã°¢È­, ±×¸®°í OLAP ±â¹ýÀº ±× µ¿¾È ¾Ë·ÁÁöÁö ¾ÊÀº »õ·Î¿î Á¤º¸¸¦ »ç¿ëÀÚÀÇ °¡ÀÌµå ¾øÀÌ Ã£À» ¼ö Àִ°¡ ÇÏ´Â °üÁ¡¿¡¼­ º¼ ¶§, ´ÜÁö ±âÁ¸¿¡ °¡Áö°í ÀÖ´ø Á¤º¸(°¡¼³)¸¦ È®ÀÎÇÏ´Â ±â´ÉÀ» Á¦°øÇÑ´Ù°í ÇÒ ¼ö Àֱ⠶§¹®¿¡ Åë»óÀûÀ¸·Î data mining ±â¹ý¿¡¼­ Á¦¿Ü½ÃÅ°´Â °æÇâÀÌ ¸¹´Ù. ±×·¯³ª ±¤ÀÇÀûÀÎ Çؼ®ÀÇ ¹è°æ¿¡´Â ¼û°ÜÁø Á¤º¸¸¦ ã¾Æ³Â´Ù°í ÇÏ´õ¶óµµ °ËÁõÀ» À§ÇØ ½Ã°¢È­ ±â¹ýÀ̳ª OLAPµµ±¸¸¦ »ç¿ëÇØ¾ß ÇÑ´Ù´Â ÀÇ°ßÀÌ Æ÷ÇԵȴÙ.
  ÇùÀÇÀûÀ¸·Î Çؼ®Çϸé À§ÀÇ ¼¼ °¡Áö ±â¹ýÀ» Á¦¿ÜÇÑ ³ª¸ÓÁö ¸ðµÎ°¡ data mining ±â¹ýÀÌ´Ù. ±×·¯³ª ÀÌ Áß¿¡¼­µµ ÀÇ»ç°áÁ¤³ª¹«¿Í ½Å°æ¸Á ±â¹ý µî°ú °°ÀÌ ÀΰøÁö´É(artificial intelligence)¿¡ ±â¹ÝÀ» µÐ ±â¹ýµéÀÌ ´ëÇ¥ÀûÀÎ data mining ±â¹ýÀ̶ó°í ÇÏ´Â ÀÇ°ß°ú ÀÌµé ¸ðµÎ¸¦ ±âÁ¸ÀÇ Åë°è±â¹ý ¹üÁÖ¿¡ Æ÷ÇÔ½ÃÅ°´Â ÀÇ°ßÀÌ ÇÐÀڵ鰣¿¡ ºÐºÐÇÏ´Ù. ½ÇÁ¦·Î ÀÇ»ç°áÁ¤³ª¹«³ª ½Å°æ¸Á°ú °°ÀÌ ±â°èÇнÀ(machine learning)¿¡ ±Ù°ÅÇÑ ±â¹ýµé¿¡ ´ëÇÑ È°¹ßÇÑ ¿¬±¸°¡ ½ÃÀÛµÈ ¿øÀÎÁßÀÇ Çϳª°¡ ÀüÅëÀûÀÎ Åë°è±â¹ýÀ» ÅëÇÑ µ¥ÀÌÅÍ ºÐ¼®ÀÇ ÇÑ°èÀÌ´Ù. ÀüÅëÀûÀÎ Åë°è±â¹ýµéÀº ¿À·£ ¿ª»ç¿Í źźÇÑ ÀÌ·ÐÀ» ¹è°æÀ¸·Î ÇÑ °ËÁõµÈ ±â¹ýÀ¸·Î º¯¼ö°£ÀÇ »ó°ü°ü°è¸¦ ¹ß°ßÇϰųª, ¸ñÇ¥º¯¼ö(ºÎ·ù)¿¡ ¿µÇâÀ» ¹ÌÄ¡´Â ÁÖ¿ä ¼Ó¼ºµéÀ» ¼±º°ÇÏ°í À̵éÀÇ ¿µÇâ·ÂÀ» Çؼ® °¡´ÉÇÑ ¼ö½ÄÀ¸·Î Á¦°øÇÏ´Â ´É·ÂÀ» Áö´Ï°í ÀÖ´Ù. ƯÈ÷ ¿¬¼ÓÇü µ¥ÀÌÅÍ °ªÀ» °®´Â °¢°¢ÀÇ ¼Ó¼ºÀÌ ¸ñÇ¥º¯¼ö¿¡ ¹ÌÄ¡´Â ¿µÇâ¿¡ ´ëÇÑ ¼³¸í·ÂÀº Ÿ ±â¹ýµé¿¡ ºñÇØ ¿ùµîÇÏ´Ù. ¹Ý¸é µ¥ÀÌÅÍ °ªµéÀÇ Á¤±ÔºÐÇ¥, °øºÐ»ê(covariance) µî°ú °°ÀÌ ¿©·¯ °¡Áö Åë°èÇÐÀû °¡Á¤À» ¿ä±¸ÇÏ´Â °æ¿ì°¡ ¸¹°í, µ¥ÀÌÅÍ¿¡ ´Ù¼öÀÇ ¹üÁÖÇü(categorical) º¯¼ö°¡ Æ÷ÇԵǾî ÀÖÀ» ¶§ À̵éÀ» °¡º¯¼ö(dummy variable)·Î º¯È¯½ÃÅ°´Â °úÁ¤¿¡¼­ ¹ß»ýÇÒ ¼ö ÀÖ´Â Ä¡¿ìħ(bias) µîÀÇ ÇѰ踦 Áö´Ï°í ÀÖ´Ù. µû¶ó¼­ ÀÌ·¯ÇÑ °¡Á¤À» ¸¸Á·ÇÏÁö ¾Ê´Â µ¥ÀÌÅ͸¦ ºÐ¼®ÇÏ¿© ¾ò¾îÁö´Â Á¤º¸´Â ½Å·Úµµ°¡ ³·°í data miningÀÇ Á¤ÀÇ¿¡¼­ ¿ä±¸ÇÏ´Â 'ÀǹÌÀÖ´Â' Á¤º¸°¡ µÉ ¼ö ¾ø´Ù. ±×·¯³ª Åë°è´Â µ¥ÀÌÅÍ ºÐ¼® ÀÛ¾÷¿¡ Ç×»ó ±âÃÊ°¡ µÇ´Â ºÐ¾ß·Î¼­, ½ÇÁ¦·Î ±â°èÇнÀÀ» ±Ù°£À¸·Î ÇÏ´Â ±â¹ýµéÀÇ ÀÌ·ÐÀû ±Ù°Å°¡ µÇ¸ç ±â¹ýÀ» ÅëÇØ µµÃâµÇ´Â Á¤º¸¸¦ Æò°¡ÇÏ°í Çؼ®Çϴµ¥ À־µµ ¹Ýµå½Ã ÇÊ¿äÇÏ´Ù. ÀÌ·¯ÇÑ ÀÌÀ¯·Î data mining ÀÛ¾÷¿¡ À־ À¯´ÉÇÑ Åë°èÀü¹®°¡ÀÇ Á¸ÀçÀ¯¹«´Â ÀÛ¾÷ ¼ºÆп¡ Àý´ëÀûÀÎ ¿µÇâÀ» ¹ÌÄ£´Ù.

 

2. ÀÇ»ç°áÁ¤³ª¹«(Decision Tree)

  ÀÇ»ç°áÁ¤³ª¹«´Â data miningÀÇ ºÐ·ù ÀÛ¾÷¿¡ ÁÖ·Î »ç¿ëµÇ´Â ±â¹ýÀ¸·Î, °ú°Å¿¡ ¼öÁýµÈ µ¥ÀÌÆ®ÀÇ ·¹ÄÚµåµéÀ» ºÐ¼®ÇÏ¿© ÀÌµé »çÀÌ¿¡ Á¸ÀçÇÏ´Â ÆÐÅÏ, Áï ºÎ·ùº° Ư¼ºÀ» ¼Ó¼ºÀÇ Á¶ÇÕÀ¸·Î ³ªÅ¸³»´Â ºÐ·ù¸ðÇüÀ» ³ª¹«ÀÇ ÇüÅ·Π¸¸µå´Â °ÍÀÌ´Ù. ±×¸®°í ÀÌ·¸°Ô ¸¸µé¾îÁø ºÐ·ù¸ðÇüÀº »õ·Î¿î ·¹Äڵ带 ºÐ·ùÇÏ°í ÇØ´ç ºÎ·ùÀÇ °ªÀ» ¿¹ÃøÇϴµ¥ »ç¿ëµÈ´Ù. ÀÇ»ç°áÁ¤³ª¹«°¡ ¾î¶»°Ô »õ·Î¿î ·¹ÄÚµåÀÇ ÇØ´ç ºÎ·ù°ªÀ» ¿¹ÃøÇϴ°¡´Â ¾î·ÈÀ» ¶§ ÀÚÁÖ ÇÏ´ø '½º¹«°í°³' ³îÀ̸¦ ¶°¿Ã·Áº¸¸é ÀÌÇØÇϱ⠽±´Ù. ÀÌ ³îÀÌ¿¡¼­´Â ÇÑ »ç¶÷ÀÌ Æ¯Á¤ÇÑ »ç¹°À̳ª »ç°Ç, ¶Ç´Â Àι°À̳ª Àå¼Ò¿Í °°Àº °³Ã¼ ÇÑ °¡Áö¸¦ ¸¶À½ ¼ÓÀ¸·Î »ý°¢ÇÑ´Ù. ±×·¯¸é ³ª¸ÓÁö »ç¶÷µéÀº "±×°ÍÀÌ »ç¶÷ÀԴϱî?"¿Í °°Àº Áú¹®À» ¹Ýº¹Çϸç Á¤´äÀ» ¸ÂÃâ ¶§±îÁö ÃÖ°í 20ȸÀÇ Áú¹® ±âȸ¸¦ °®´Â´Ù. ±×·¯³ª ³îÀÌ¿¡ ´É¼÷ÇÑ »ç¶÷µéÀº 20ȸÀÇ Áú¹® ±âȸ¸¦ ¸ðµÎ »ç¿ëÇϱ⠺¸´Ù´Â Á¤´äÀ» À¯µµÇÒ ¼ö ÀÖ´Â ¿¹¸®ÇÑ Áú¹®À» ¸î ¹ø ´øÁö°í´Â Á¤´äÀ» ¸ÂÃß´Â °æ¿ì°¡ ¸¹´Ù. ÀÌ ³îÀÌ¿Í ¸¶Âù°¡Áö·Î ÀÇ»ç°áÁ¤³ª¹«µµ »õ·Î¿î ·¹ÄÚµåÀÇ ºÎ·ù°ªÀ» ¿¹ÃøÇϱâ À§ÇØ ÀÌ¹Ì ¸¸µé¾îÁø ºÐ·ù¸ðÇü(ÀÇ»ç°áÁ¤³ª¹«)ÀÌ Áö½ÃÇÏ´Â ¹Ù¿¡ µû¶ó ·¹ÄÚµåÀÇ ¼Ó¼º°ªÀ» Áú¹®ÇÏ´Â ÀÛ¾÷À» ¹Ýº¹ÀûÀ¸·Î ¼öÇàÇÑ´Ù. ƯÈ÷ °áÁ¤ÀûÀÎ Áú¹®À» ´øÁö°Ô µÇ¸é ´Ù¸¥ ¸ðµç ¼Ó¼ºÀÇ °ªÀ» ¹¯Áö ¾Ê°íµµ ·¹ÄÚµåÀÇ ºÎ·ù°ªÀ» Á¤È®È÷ ¿¹ÃøÇÒ ¼ö ÀÕ´Ù. µû¶ó¼­ ·¹Äڵ带 ºÐ·ùÇÏ°í ¿¹ÃøÇÒ ¼ö ÀÖ´Â ³ª¹«(¸ðÇü)¸¦ ¾ó¸¶³ª Àß ¸¸µå´À³Ä°¡ ÀÇ»ç°áÁ¤³ª¹« ±â¹ýÀÇ ÇÙ½ÉÀÌ´Ù.
  ÀÇ»ç°áÁ¤³ª¹«´Â ¼øȯÀû ºÐÇÒ(recursive partitioning) ¹æ½ÄÀ» ÀÌ¿ëÇÏ¿© ³ª¹«¸¦ ±¸ÃàÇÏ´Â ±â¹ýÀ¸·Î, ³ª¹«ÀÇ °¡Àå »ó´Ü¿¡ À§Ä¡ÇÏ´Â »Ñ¸®¸¶µð(root node), ¼Ó¼ºÀÇ ºÐ¸®±âÁØÀ» Æ÷ÇÔÇÏ´Â ³»ºÎ¸¶µð(internal nodes), ¸¶µð¿Í ¸¶µð¸¦ À̾îÁÖ´Â °¡Áö(link), ±×¸®°í ÃÖÁ¾ ºÐ·ù¸¦ ÀǹÌÇÏ´Â ÀÙ(leaf)µé·Î ±¸¼ºµÈ´Ù. ±×¸² 1Àº data miningÀÇ °³¿ä¿¡¼­ ÀÛ¾÷À¯Çü Áß ºÐ·ù±ÔÄ¢¿¡¼­ ¿¹½ÃÇÏ¿´´ø Åë½Å±â±â ÆǸž÷üÀÇ °í°´¹ÝÀÀ µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ÀÇ»ç°áÁ¤³ª¹«¸¦ ±¸ÃàÇÑ °ÍÀε¥, ±àÁ¤Àû('¿¹')À¸·Î ÀÀ´äÇÑ °í°´µé°ú ºÎÁ¤Àû('¾Æ´Ï¿À')À¸·Î ÀÀ´äÇÑ °í°´µéÀ» Ư¼º¿¡ µû¶ó ºÐ·ùÇÏ°í, ÇâÈÄ DM(Direct Mail) ¹ß¼Û½Ã ±àÁ¤ÀûÀÎ ¹ÝÀÀÀ» º¸ÀÏ ¸¸ÇÑ °í°´µéÀ» ¿¹ÃøÇÏ´Â °ÍÀ» ¸ñÀûÀ¸·Î ÇÑ´Ù. µ¥ÀÌÅÍ´Â 'Á÷¾÷', '¼ºº°', '°ÅÁÖÁö', '³ªÀÌ'¶ó´Â 4°¡ÁöÀÇ ¼Ó¼º°ú ºÎ·ù¿¡ ÇØ´çÇÏ´Â 'ÀÀ´ä'À¸·Î ±¸¼ºµÇ¾î ÀÖ°í, Àüü ·¹ÄÚµå(°í°´)ÀÇ ¼ö´Â 14°³À̸ç, ÀÌ Áß 5¸íÀÇ °í°´ÀÌ '¾Æ´Ï¿À', 9¸íÀÌ '¿¹'¶ó°í ÀÀ´äÇß´Ù. ÀÇ»ç°áÁ¤³ª¹« ±â¹ýÀº ¸ÕÀú °¢ ¼Ó¼ºµéÀÌ °í°´µéÀ» ºÐ·ùÇϴµ¥ ¿µÇâÀ» ¹ÌÄ¡´Â Á¤µµ¸¦ ÃøÁ¤ÇÑ ÈÄ, ±× Áß¿¡¼­ °¡Àå ¿µÇâ·ÂÀÌ ÀÖ´Â ¼Ó¼ºÀ» ¼±Á¤ÇÏ¿© ³ª¹«ÀÇ »Ñ¸®¸¶µð¿¡ ÁöÁ¤ÇÑ´Ù. À§ÀÇ ÀÇ»ç°áÁ¤³ª¹«ÀÇ °æ¿ì 'Á÷¾÷'À̶ó´Â ¼Ó¼ºÀÌ ³ª¹«ÀÇ »Ñ¸® ¸¶µð·Î ¼±Á¤µÇ¾úÀ¸¸ç, °í°´µéÀº ÇØ´ç ¼Ó¼ºÀÇ °ª¿¡ µû¶ó '°í¿ë', 'ÀÚ¿µ', '¹«Á÷'À̶ó´Â 3°³ÀÇ °¡Áö·Î ºÐ¸®µÇ¾ú´Ù.

±×¸² 1 ÀÇ»ç°áÁ¤³ª¹«¸¦ ÀÌ¿ëÇÑ °í°´ºÐ·ù ¸ðÇü

  ¿©±â¿¡¼­ ¿ì¸®´Â °í°´ÀÇ Á÷¾÷ÀÌ 'ÀÚ¿µ'ÀÎ °æ¿ì '¼ºº°'°ú '°ÅÁÖÁö', ±×¸®°í '³ªÀÌ'¿¡ °ü°è¾øÀÌ '¿¹'¶ó°í ÀÀ´äÇѴٴ ù ¹ø° ±ÔÄ¢À» ¹ß°ßÇÒ ¼ö ÀÖ´Ù. ¹Ý¸é¿¡ Àüü 14¸íÀÇ °í°´µé Áß¿¡¼­ Á÷¾÷ÀÌ '°í¿ë'ÀÎ °¡Áö¿¡ ¼ÓÇÑ °í°´ÀÇ ¼ö´Â 5¸íÀ¸·Î¼­ ÀÌ °¡¿îµ¥ 2¸íÀÌ '¾Æ´Ï¿À', 3¸íÀÌ '¿¹'¶ó°í ÀÀ´äÇß´Ù. ÀÇ»ç°áÁ¤³ª¹« ±â¹ýÀº À̵é 5¸íÀÇ °í°´À» °è¼Ó ºÐ·ùÇϱâ À§ÇØ ³ª¹«¸¦ È®Àå½ÃÅ°´Âµ¥, °¡Àå Å« ¿µÇâ·ÂÀ» ¹ÌÄ¡´Â ¼Ó¼ºÀÌ '³ªÀÌ'¶ó´Â °ÍÀ» ã¾Æ³»¾î ³»ºÎ¸¶µð·Î ÁöÁ¤ÇÏ¿´°í ºÐ¸®ÀÇ ±âÁØÀÌ µÇ´Â °ªÀº 43¼¼·Î »êÁ¤ÇÏ¿´´Ù. ƯÈ÷ ³ªÀÌ°¡ 43¼¼ ÀÌ»óÀÎ 2¸í °í°´ ¸ðµÎ´Â '¾Æ´Ï¿À'¶ó°í ÀÀ´äÇߴµ¥, À̸¦ ±Ù°Å·Î Á÷¾÷ÀÌ '°í¿ë'ÀÌ°í ³ªÀÌ°¡ '43¼¼' ÀÌ»óÀÎ °í°´Àº '¾Æ´Ï¿À'¶ó°í ÀÀ´äÇÑ´Ù´Â µÎ ¹ø° ±ÔÄ¢ÀÌ µµÃâµÈ´Ù. ÀÌ¿Í °°Àº ¹æ¹ýÀ¸·Î ³ª¹«¸¦ È®ÀåÇÑ °á°ú ÃÑ 5°¡ÁöÀÇ ºÐ·ù±ÔÄ¢ÀÌ ¸¸µé¾îÁ³´Ù. ÀÌÁ¦ Á÷Àå¿¡ ´Ù´Ï°í, °ÅÁÖÁö°¡ °­³²À̸ç, ³ªÀÌ°¡ 48¼¼ÀÎ »õ·Î¿î ³²¼º°í°´¿¡°Ô DMÀ» ¹ß¼ÛÇÏ¸é °ú¿¬ ¾î¶»°Ô ¹ÝÀÀÇÒ °ÍÀΰ¡¸¦ ÆÇ´ÜÇØ º¸¸é, À§ÀÇ ±ÔÄ¢¿¡ µû¶ó '¾Æ´Ï¿À'¶ó ÀÀ´äÇϸ®¶ó°í ¿¹ÃøÇÒ ¼ö ÀÖ´Ù. µû¶ó¼­ ÀÌ·¯ÇÑ °í°´Àº DM¹ß¼Û ´ë»óÀÚ ¸í´Ü¿¡¼­ Á¦¿Ü½ÃÅ°´Â °ÍÀÌ ºñ¿ë°ú ³ë·Â Àý°¨ Â÷¿ø¿¡¼­ À¯¸®ÇÒ °ÍÀÌ´Ù.
  ±×¸² 1¿¡¼­´Â µ¥ÀÌÅÍ»ó¿¡ ¿À·ù°ªÀ̳ª °á¼Õ°ª(missing) µîÀÌ Á¸ÀçÇÏÁö ¾Ê¾Ò±â ¶§¹®¿¡ ¸ðµç ·¹ÄÚµåµéÀ» ¿Ïº®ÇÏ°Ô ºÐ·ùÇÒ ¶§±îÁö ³ª¹«¸¦ È®Àå½ÃŲ ÈÄ, ºÐ·ù±ÔÄ¢À» µµÃâÇÏ¿´´Ù. ±×·¯³ª ½ÇÁ¦ ¾÷¹« ÇöÀå¿¡¼­ µ¥ÀÌÅ͸¦ ¼öÁýÇغ¸¸é ´Ù¼Ò°£ÀÇ Â÷ÀÌ´Â ÀÖÁö¸¸ ´ëºÎºÐÀÇ µ¥ÀÌÅÍ°¡ ¿À·ù°ªÀ̳ª °á¼Õ°ªÀ» Áö´Ï°í ÀÕ´Ù. ÀÌ·¯ÇÑ °æ¿ì µ¥ÀÌÅÍ¿¡ Æ÷ÇÔµÈ ¸ðµç ·¹ÄÚµåµéÀ» ¿Ïº®ÇÏ°Ô ºÐ·ùÇÒ ¶§±îÁö ³ª¹«¸¦ È®ÀåÇÏ¿© ºÐ·ù¸ðÇüÀ» ¸¸µé°Ô µÇ¸é, ºÒÇÊ¿äÇÑ ¼Ó¼ºµéÀÌ ³ª¹«ÀÇ ¸¶µð¿¡ Æ÷ÇԵDZ⠶§¹®¿¡ ¸ðÇüÀÌ Á¦°øÇÏ´Â ±ÔÄ¢ ÀÚü°¡ ¾û¶×ÇÑ Àǹ̸¦ °®°Ô µÉ ¼ö ÀÖÀ¸¸ç, ÀÌ·Î ÀÎÇØ »õ·Î¿î ·¹Äڵ忡 ´ëÇÑ ¿¹Ãø·ÂÀÌ °¨¼ÒÇÏ´Â °á°ú¸¦ ÃÊ·¡ÇÑ´Ù. ÀÌ°ÍÀ» ¼ÒÀ§ ¸ðÇüÀÇ '°úÀ׸ÂÃã(overfitting)'À̶ó Çϸç, °úÀ׸ÂÃãÀ¸·Î ÀÎÇØ ºÒÇÊ¿äÇÏ°Ô º¹ÀâÇØÁø ³ª¹«ÀÇ Àǹ̾ø´Â ¸¶µð(¼Ó¼º)µéÀ» Á¦°ÅÇÏ´Â ÀÛ¾÷À» ³ª¹« '°¡ÁöÄ¡±â(pruning)'¶ó ÇÑ´Ù. ƯÈ÷ °¡ÁöÄ¡±â ÀÛ¾÷Àº ÀÇ»ç°áÁ¤³ª¹« ¸ðÇüÀ» ±¸ÃàÇÒ ¶§ °ÅÀÇ ÇʼöÀûÀ¸·Î »ç¿ëµÈ´Ù.

  (1) ÀåÁ¡

  (2) ´ÜÁ¡

3. ½Å°æ¸Á(Neural Networks)

   ½Å°æ¸ÁÀº Àΰ£ µÎ³úÀÇ ½Å°æ¼¼Æ÷¸¦ ¸ð¹æÇÑ °³³äÀ¸·Î ¸¶µð(node)¿Í °í¸®(link)·Î ±¸¼ºµÈ ¸Á±¸Á¶¸¦ ¸ðÇüÈ­ÇÏ°í, ÀÇ»ç°áÁ¤³ª¹«¿Í ¸¶Âù°¡Áö·Î °ú°Å¿¡ ¼öÁýµÈ µ¥ÀÌÅͷκÎÅÍ ¹Ýº¹ÀûÀÎ ÇнÀ°úÁ¤À» °ÅÃÄ µ¥ÀÌÅÍ¿¡ ³»ÀçµÇ¾î ÀÖ´Â ÆÐÅÏÀ» ã¾Æ³»´Â ¸ðµ¨¸µ ±â¹ýÀÌ´Ù. ½Å°æ¸ÁÀº ºÐ·ù, ±ºÁý, ¿¬°ü±ÔÄ¢ ¹ß°ß°ú °°Àº ÀÛ¾÷¿¡ ³Î¸® »ç¿ëµÇ´Â data mining ±â¹ýÀ¸·Î ½Å¿ëÆò°¡, Ä«µå µµ¿ëÆÐÅÏ ºÐ¼®, ¼ö¿ä ¹× ÆǸŠ¿¹Ãø, °í°´¼¼ºÐÈ­(customer segmentation) µî ¿©·¯ °¡Áö ¸ñÀûÀ¸·Î ´Ù¾çÇÑ »ê¾÷ºÐ¾ß¿¡ Æø ³Ð°Ô Àû¿ëµÇ°í ÀÖ´Ù.
  ±×·¯¸é ½Å°æ¸Á ¸ðÇüÀº ¾î¶»°Ô ±¸ÇöµÇ¾î ÀÛµ¿Çϴ°¡? ÀÌÇظ¦ µ½±â À§ÇØ ½Å°æ¸Á ¸ðÇüÀ» ÅëÇØ ÁÖÅÃÀ̳ª °Ç¹°ÀÇ °¡°ÝÀ» Æò°¡ÇÏ´Â »ç·Ê¸¦ »ìÆ캸±â·Î ÇÏÀÚ(ÀÚ·á¿ø: Data Mining Techniques for Marketing, Sales, and Customer Support by M. Berry and G. Linoff, John Wiley & Sons, 1997).
  ÁÖÅÃÀÇ ¸Å¸Å Áß°³³ª °¨Á¤À» À§Çؼ­´Â ÁÖÅÃÀÇ °¡Ä¡¸¦ Á¦´ë·Î Æò°¡ÇØ¾ß ÇÑ´Ù. ƯÈ÷ Àå±â ´ëÃâÀ» ÅëÇØ ÁÖÅÃÀ» ±¸ÀÔÇÏ´Â ¹æ½ÄÀÌ °ü·ÊÈ­µÇ¾î ÀÖ´Â ¹Ì±¹ÀÇ °æ¿ì, ÁÖÅÃÀ» ´ãº¸·Î ´ëÃâÀ» ÇàÇÏ´Â ±ÝÀ¶±â°üµé¿¡°Ô´Â Á¤È®È÷ °¡°ÝÀ» Æò°¡ÇÏ´Â ´É·ÂÀÌ ¹«¾ùº¸´Ùµµ Áß¿äÇÏ´Ù. ½ÇÁ¦·Î ÁÖÅà Àå±â´ëÃâ ¾÷¹«¸¦ ÁÖ·Î Çϸç Àü±¹Àû üÀÎÀ» º¸À¯ÇÑ ¹Ì±¹ÀÇ ÈÄ·¹µð¸Æ(Freddie Mac)»ç´Â ¹Ì±¹ Àü¿ª¿¡ Èð¾îÁ® ÀÖ´Â ÁÖÅõéÀÇ °¡°ÝÀ» ÀÚµ¿ÀûÀ¸·Î Æò°¡ÇÏ´Â '·Ð ÇÁ·Î½ºÆåÅÍ(Loan Prospector)'¶ó´Â ½Ã½ºÅÛÀ» ¿ÜÁÖ¸¦ ÁÖ¾î °³¹ßÇÏ¿´´Âµ¥, ÀÌ ½Ã½ºÅÛÀÇ ±â¹ÝÀÌ µÈ °ÍÀÌ ¹Ù·Î ½Å°æ¸Á ±â¹ýÀÌ´Ù. ÀÌ ½Ã½ºÅÛÀ» °³¹ßÇÏ°Ô µÈ ¹è°æ¿¡´Â ÁÖÅà °¡°ÝÆò°¡ Àü¹®°¡µéÀÌ °æÇèÇÑ ÀڽŵéÀÇ Áö½ÄÀÇ ÇÑ°è°¡ °áÁ¤ÀûÀÎ ¿øÀÎÀÌ µÇ¾ú´Ù. ±×µéÀº ´ëµµ½Ã¿¡ À§Ä¡ÇÑ ÁÖÅÃÀÇ °¡°ÝÀÌ µµ½Ã ±Ù±³ÀÇ ÁÖÅõ鿡 ºñÇØ ºñ½Î´Ù´Â Á¡, ±×¸®°í ¹æÀÇ °³¼ö, ÁÖÂ÷°ø°£ÀÇ Å©±â, ÁÖÅÃÀÇ Æò¼ö µî ´Ù¾çÇÑ ¿ä¼ÒµéÀÌ ÁÖÅÃÀÇ °¡°ÝÀ» °áÁ¤ÇÑ´Ù´Â °ÍÀ» ¾Ë°í ÀÖ¾ú´Ù. ±×·¯³ª À̵éÀ» Á¶ÇÕÇؼ­ °¡°Ý ¿¹Ãø ¸ðÇüÀ» ¸¸µå´Âµ¥ ¸¹Àº ¾î·Á¿òÀ» °Þ¾ú´Ù. ¹°·Ð ȸ±ÍºÐ¼®°ú °°Àº Åë°è±â¹ýÀ» »ç¿ëÇÏ¿© ¸ðÇüÀ» ¸¸µé¾î º¸¾ÒÀ¸³ª, ¿¹ÃøÀÇ Á¤È®µµ°¡ ¸¸Á·½º·´Áö ¸øÇß´Ù. ÀÌ·¯ÇÑ ÀÌÀ¯·Î ½Å°æ¸Á ±â¹ý¿¡ °ü½ÉÀ» ±â¿ïÀÌ°Ô µÈ °ÍÀÌ´Ù.
  ÀÌÁ¦ 1,000°ÇÀÇ ·¹ÄÚµå·Î ±¸¼ºµÈ °¡»ó µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ½Å°æ¸Á ¸ðÇüÀÌ ¸¸µé¾îÁö´Â °úÁ¤À» »ìÆ캸µµ·Ï ÇÏÀÚ. Ç¥ 1Àº µ¥ÀÌÅ͸¦ ±¸¼ºÇÏ´Â ¼Ó¼ºµéÀÇ À̸§°ú ³»¿ë, ±×¸®°í °ªÀÇ ¹üÀ§¸¦ ³ªÅ¸³»°í ÀÖ´Ù. ¹°·Ð ÀÌµé ¼Ó¼º ¿Ü¿¡µµ ÁÖº¯ÀÇ È¯°æ, ¼Ò¼ÓµÈ Çбº, ÁÖÅÃÀÇ »óÅ µî°ú °°ÀÌ ÁÖÅÃÀÇ °¡°ÝÀ» °áÁ¤Çϴµ¥ ¿µÇâÀ» ÁÙ ¼ö ÀÖ´Â ¼Ó¼ºµéÀ» °í·ÁÇÒ ¼ö ÀÖÀ¸³ª ¿©±â¼­´Â »ç·Ê¸¦ °£´ÜÈ÷ Çϱâ À§ÇØ Á¦¿Ü ½ÃÅ°µµ·Ï ÇÑ´Ù.

Ç¥ 1 ÁÖÅð¡°Ý¿¹Ãø ¸ðÇüÀ» ±¸ÃàÇϴµ¥ »ç¿ëµÈ µ¥ÀÌÅÍ

¼Ó¼º ¸í

³»    ¿ë

°ªÀÇ ¹üÀ§

¿ª     ÇÒ

    ¹æÀÇ °³¼ö

    ¹æÀÇ °³¼ö

    1~6

ÀԷº¯¼ö

    ¿¬µµ

    ÁÖÅÃÀÌ °ÇÃàµÈ ¿¬µµ

    1945~1999

    ³­¹æ

    ³­¹æÀÇ Çü½Ä

    {A, B}

    ÁÖÂ÷°ø°£

    ÃÖ´ë ÁÖÂ÷Â÷·®ÀÇ ¼ö

    0~3

    °Å½Ç

    °Å½ÇÀÇ Å©±â (Æò¼ö)

    5~50

    Ãþ¼ö

    ÁÖÅÃÀÇ Ãþ¼ö

    1~3

    Å©±â

    °ÇÆò

    10~1000

    ¹æÇâ

    °Å½ÇÀÇ Á¤¸éÀÌ ÇâÇÑ ¹æÇâ

    {µ¿, ¼­, ³², ºÏ}

    Æȸ° ½Ã±â

    ÀÌ´ÞÀ» ±âÁØÀ¸·Î °³¿ù ¼ö

    0~23

    °¡°Ý

    ÆǸŠ°¡°Ý(´ÜÀ§: ¸¸¿ø)

    5,000~30,000

¸ñÇ¥º¯¼ö

   ½Å°æ¸Á ¸ðÇüÀº ¸ðµç ÀԷº¯¼ö¿Í ¸ñÇ¥º¯¼ö°¡ 0¿¡¼­ 1»çÀÌ ¹üÀ§ÀÇ °ªÀ» ÃëÇÒ ¶§ ÃÖÀûÀÇ ¼º´ÉÀ» Á¦°øÇÑ´Ù. µû¶ó¼­ º¯¼öÀÇ ¼º°Ý¿¡ »ó°ü¾øÀÌ ¸ðµç º¯¼öÀÇ °ªÀ» 0°ú 1»çÀÌÀÇ °ªÀ¸·Î º¯È¯½ÃÅ°´Â °ÍÀÌ ¹Ù¶÷Á÷ÇÏ´Ù. Ç¥ 2´Â 1,000°³ÀÇ ·¹ÄÚµå Áß Ã¹ ¹ø° ·¹Äڵ尡 °®´Â ½ÇÁ¦ °ªµéÀ» ¼Ó¼ºº°·Î ³ª¿­ÇÏ°í, À̵éÀ» º¯È¯½ÃŲ °ªÀ» ³ªÅ¸³½´Ù. ¿©±â¿¡¼­ ¹æÀÇ °³¼ö '4'´Â ´ÙÀ½ÀÇ ½ÄÀ» ÅëÇØ 0¿¡¼­ 1»çÀÌÀÇ °ªÀ¸·Î º¯È¯µÇ¾ú´Ù. (4-1)/(6-1)=0.6000. ³­¹æ°ú °°Àº ÀÌÁø(binary) º¯¼öÀÇ °æ¿ì¿¡´Â °ª 'A'¸¦ '0'À¸·Î, °ª B¸¦ '1'·Î º¯È¯ÇÏ¿´À¸¸ç, ¹æÇâ°ú °°ÀÌ 4°³ÀÇ °ªÀ» °®´Â ÀÌ»êÇü º¯¼ö´Â 4°³ÀÇ ÀÌÁø º¯¼ö¸¦ ¸¸µé¾î °¢°¢ '0' ¶Ç´Â '1'À» ÃëÇϵµ·Ï ÇÏ¿´´Ù. ±×·¯³ª ÀÌ¿Í °°Àº °æ¿ì ÀÌÁø º¯¼ö¸¦ Ãß°¡ÇÏ´Â ´ë½Å, ù ¹ø° °ªÀ» '0.00', µÑ° °ªÀ» '0.33', ¼Â° °ªÀ» '0.67', ±×¸®°í ¸¶Áö¸· °ªÀ» '1.00'À¸·Î º¯È¯Çϱ⵵ ÇÑ´Ù.

Ç¥ 2 ¼Ó¼ºÀÇ ½ÇÁ¦ °ª°ú º¯È¯µÈ °ª

¼Ó¼º ¸í

°ªÀÇ ¹üÀ§

½ÇÁ¦ °ª

º¯È¯µÈ °ª

    ¹æÀÇ °³¼ö

    1~6

4

0.6000

    ¿¬µµ

    1945~1995

1980

0.7000

    ³­¹æ

    {A, B}

B

1.0000

    ÁÖÂ÷°ø°£

    0~3

1

0.3333

    °Å½Ç

    5~50

25

0.5555

    Ãþ¼ö

    1~3

2

0.5000

    Å©±â

    10~100

60

0.667

    ¹æÇâ(µ¿)

    {¿¹, ¾Æ´Ï¿À}

0

0.0000

    ¹æÇâ(¼­)

    {¿¹, ¾Æ´Ï¿À}

0

0.0000

    ¹æÇâ(³²)

    {¿¹, ¾Æ´Ï¿À}

1

1.0000

    ¹æÇâ(ºÏ)

    {¿¹, ¾Æ´Ï¿À}

0

0.0000

    Æȸ° ½Ã±â

    0~23

8

0.3478

    °¡°Ý

    5,000~30,000

10,000

0.2000

  ±×¸² 2´Â ÀÚÁÖ »ç¿ëµÇ´Â ½Å°æ¸Á ±¸Á¶µéÀÌ´Ù. (a)´Â ´Ù¼öÀÇ ¸¶µðµéÀ» Æ÷ÇÔÇÑ ÀÔ·ÂÃþ(input layer)°ú ÇϳªÀÇ Ãâ·Â¸¶µð·Î ±¸¼ºµÈ °¡Àå °£´ÜÇÑ ¸Á±¸Á¶·Î¼­, Åë°èÀÇ ·ÎÁö½ºÆ½ ȸ±ÍºÐ¼®(logistic regression)°ú µ¿ÀÏÇÑ ¸ðÇüÀ» Á¦°øÇÑ´Ù. (b), (c), (d)ÀÇ ±¸Á¶´Â ÀÔ·ÂÃþ°ú Ãâ·ÂÃþ(output layer) »çÀÌ¿¡ Àº´ÐÃþ(hidden layer)À» Ãß°¡ÇÑ °ÍÀ¸·Î Àº´ÐÃþÀÇ ¸¶µð ¼ö¸¦ Áõ°¡½ÃÅ°°Ô µÇ¸é ºÐ·ù´É·ÂÀÌ Çâ»óµÇ¾î ´õ ¸¹Àº ÆÐÅÏÀ» ÀνÄÇÒ ¼ö ÀÖÁö¸¸ ÀÚÄ© °úÀ׸ÂÃãÀÇ °á°ú¸¦ ÃÊ·¡Çϱ⠽±´Ù. ÀÌ°ÍÀº ¸¶Ä¡ ÀÇ»ç°áÁ¤³ª¹« ±¸Ãà½Ã ¸ðµç ·¹ÄÚµåµéÀ» ¿Ïº®ÇÏ°Ô ºÐ·ùÇÒ ¶§±îÁö ³ª¹«¸¦ È®ÀåÇÏ¿©, »õ·Î¿î ·¹Äڵ忡 ´ëÇÑ ¿¹Ãø·ÂÀ» °¨¼Ò½ÃÅ°´Â °Í°ú À¯»çÇÏ´Ù. µû¶ó¼­ ÀÇ»ç°áÁ¤³ª¹«¿¡¼­´Â ÀûÀýÇÑ ¼öÁØ¿¡¼­ ³ª¹«ÀÇ È®ÀåÀ» Áß´ÜÇÏ´Â °ÍÀÌ ÇÊ¿äÇϵíÀÌ, ½Å°æ¸Á¿¡¼­´Â ÀûÁ¤ÇÑ Àº´Ð¸¶µðÀÇ ¼ö¸¦ °áÁ¤ÇÏ´Â °ÍÀÌ ÇÊ¿äÇÏ´Ù. ½Å°æ¸ÁÀº ¶ÇÇÑ (d)ÀÇ ±¸Á¶¿¡¼­ º¸µíÀÌ µÎ °¡Áö ÀÌ»óÀÇ °ªÀ» °®´Â ÀÌ»êÇü Ãâ·Âº¯¼öÀÇ °ªÀ» ¿¹ÃøÇÒ ¼öµµ ÀÖ´Ù.

±×¸² 2 ´Ù¾çÇÑ ½Å°æ¸Á ±¸Á¶

   ½Å°æ¸Á ±â¹ý Áß¿¡¼­ °¡Àå ³Î¸® »ç¿ëµÇ´Â ÈÄÁøÀüÆÄ(back propagation) ¹æ½ÄÀº (b), (c), (d)ÀÇ °æ¿ì¿Í °°ÀÌ Àº´ÐÃþÀ» Æ÷ÇÔÇÏ´Â ±¸Á¶ÀÌ´Ù. ÀÌ ¹æ½ÄÀº ¸¶µð¿Í ¸¶µðµéÀ» ¿¬°áÇÏ´Â °í¸®µé¿¡ ÀÓÀÇ·Î Ãʱ⠰­µµ(weight) °ªÀ» ÁöÁ¤ÇÏ¿© Ãʱ⠸ðÇüÀ» ¼³Á¤ÇÑ ÈÄ, ¸ðÇüÀ» ¸¸µé±â À§ÇØ ÁغñÇÑ(¸ðÇü ±¸Ãà¿ëÀ̶ó Á¤ÀÇÇÔ) µ¥ÀÌÅÍÀÇ ·¹Äڵ带 Çϳª¾¿ ¸ðÇü¿¡ ÀԷ½ÃÄÑ ¸ðÇüÀÌ Á¦½ÃÇÏ´Â ºÎ·ùÀÇ °ª°ú ½ÇÁ¦ ºÎ·ùÀÇ °ªÀ» ºñ±³ÇÑ´Ù. ¸¸¾à ÀÌ µÑÀÇ °ª¿¡ Â÷ÀÌ(¿À·ù)°¡ ÀÖÀ¸¸é Â÷À̸¦ ÃÖ¼ÒÈ­Çϵµ·Ï °­µµÀÇ °ªÀ» Á¶Á¤ÇÑ´Ù. ÀÌ¿Í °°Àº °úÁ¤À» ÇнÀ°úÁ¤(learning process)À̶ó Çϴµ¥, ÇнÀ°úÁ¤Àº °­µµ °ªÀÇ º¯È­°¡ ¹ÌºñÇØÁú ¶§±îÁö ¶Ç´Â ¹Ì¸® Á¤ÇØÁø Ƚ¼ö¸¸Å­ ¸ðÇü ±¸Ãà¿ë ·¹ÄÚµåµéÀ» ÀԷ½Ãų ¶§±îÁö °è¼ÓµÈ´Ù. ±×¸² 3Àº ÁÖÅÃÀÇ °¡°ÝÀ» Æò°¡ÇÏ´Â ¸ðÇüÀ» ÈÄÁøÀüÆÄ ¹æ½ÄÀ» ÀÌ¿ëÇÏ¿© ±¸ÇöÇÏ´Â ¿¹ÀÌ´Ù.

±×¸² 3 ½Å°æ¸ÁÀ» ÀÌ¿ëÇÑ ÁÖÅð¡°Ý Æò°¡¸ðÇü

  ÀÌ·¸°Ô ¸¸µé¾îÁø ¸ðÇüÀº ½ÃÇè¿ë µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ¸ðÇüÀÇ ¿¹Ãø Á¤È®µµ¸¦ °ËÁõ¹ÞÀº ÈÄ, ¾÷¹«ÇöÀå¿¡ Àû¿ëµÈ´Ù. ƯÈ÷ ¸ðÇüÀº 0¿¡¼­ 1»çÀÌÀÇ Ãâ·Âº¯¼ö °ªÀ» Á¦½ÃÇϱ⠶§¹®¿¡ ÀÌ °ªÀ» ½ÇÁ¦ °ªÀ¸·Î À纯ȯ½ÃÅ°´Â ÀÛ¾÷ÀÌ ÇÊ¿äÇÏ´Ù. ¿¹¸¦ µé¾î, ÀÌ ¸ðÇüÀ» ÀÌ¿ëÇÏ¿© ÇÑ ÁÖÅÃÀÇ °¡°ÝÀ» ¿¹ÃøÇϱâ À§ÇØ ÇØ´ç ¼Ó¼ºÀÇ °ªÀ» ÀÔ·ÂÇÏ´Ï ¸ðÇüÀÌ Á¦½ÃÇÏ´Â ¿¹Ãø °ªÀÌ 0.60À̾ú´Ù°í ÇÏÀÚ. ±×·¯¸é ½ÇÁ¦ ¿¹Ãø °ªÀº °¡°ÝÀÇ ¹üÀ§ °ª 25,000¿¡ 0.6À» °öÇÑ ÈÄ, ÃÖ¼Ò ±âÁØ °ª 5,000 °¡°ÝÀ» ´õÇÑ 20,000ÀÌ µÈ´Ù.

  (1) ÀåÁ¡

  (2) ´ÜÁ¡

 

4. µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º(Co-Occurrence Matrix)

  µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º´Â °Å·¡(»ç°Ç) ¼Ó¿¡ Æ÷ÇÔµÈ Ç°¸ñ(Ç׸ñ)°£ÀÇ ¿¬°ü°ü°è¸¦ ¹ß°ßÇÏ°íÀÚ ÇÒ ¶§ »ç¿ëÇÏ´Â data mining ±â¹ýÀÌ´Ù. ºÐ¼®ÀÇ ´ë»óÀÌ µÇ´Â µ¥ÀÌÅÍ´Â µÎ °³ÀÇ º¯¼ö, Áï °Å·¡¿Í Ç°¸ñÀ¸·Î ±¸¼ºµÇ¸ç, °¢°¢ÀÇ °Å·¡¿¡ ´ëÇØ ÇÑ °³ ÀÌ»óÀÇ Ç°¸ñµéÀÌ Á¸ÀçÇÑ´Ù. ÀϹÝÀûÀ¸·Î ÇϳªÀÇ °Å·¡´Â ÇÑ °í°´¿¡ ÀÇÇÑ ±¸¸Å¸¦ ÀǹÌÇϸç, Ç°¸ñÀº ±× ±¸¸Å¸¦ ÅëÇØ ±¸ÀÔµÈ ¹°°ÇÀÌ´Ù. µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º´Â È®·üÀ» ÀÌ¿ëÇÏ¿© ¿¬°ü±ÔÄ¢À» Á¦°øÇϴµ¥ ¸ÕÀú ÇϳªÀÇ Ç°¸ñ¿¡ ´ëÇØ, ´ÙÀ½À¸·Î µÎ Ç°¸ñ°£ÀÇ ¿¬°ü±ÔÄ¢À» »ý¼ºÇÏ¸ç °è¼ÓÇؼ­, ¼¼ Ç°¸ñ°£, ³× Ç°¸ñ°£ µîÀ¸·Î À̾îÁø´Ù. ¿¬°ü±ÔÄ¢Àº "(Ç°¸ñ A)¢¡(Ç°¸ñ B)"ÀÇ ÇüÅ·ΠǥÇöµÇ¸ç, "Ç°¸ñ A¸¦ Æ÷ÇÔÇÑ °Å·¡´Â Ç°¸ñ Bµµ Æ÷ÇÔÇÑ´Ù."¶ó Çؼ®ÇÑ´Ù.
  ±×¸² 4´Â µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º°¡ Á¦°øÇÏ´Â ¿¬°ü±ÔÄ¢ÀÇ ¿¹Àε¥, »óÀ§ 5°³´Â µÎ °³ Ç°¸ñ°£ÀÇ, ³ª¸ÓÁö´Â ¼¼ °³ Ç°¸ñ°£ÀÇ ¿¬°ü±ÔÄ¢ÀÌ´Ù. ±×·¯³ª ÀÌ·¯ÇÑ ½ÄÀ¸·Î Ç°¸ñ°£ÀÇ ¿¬°ü°ü°è¸¦ µµÃâÇÒ °æ¿ì ¸¸¾à ÇÑ »óÁ¡¿¡¼­ À¯ÅëµÇ´Â Ç°¸ñÀÇ ¼ö°¡ 30°¡Áö¶ó°í¸¸ ÇÏ´õ¶óµµ °Å·¡µé¿¡ ÀÇÇØ ¸¸µé¾îÁö´Â ¸ðµç °¡´ÉÇÑ ¿¬°ü±ÔÄ¢ÀÇ ¼ö´Â (2
30-1), Áï 1,073,741,823°³À̸ç, Ç°¸ñÀÇ ¼ö°¡ ´Ã¾î³¯¼ö·Ï ±ÔÄ¢ÀÇ ¼ö´Â ±âÇϱ޼öÀûÀ¸·Î Áõ°¡ÇÑ´Ù. µû¶ó¼­ À̵éÀ» ¿©°úÇÏ¿© ÀǹÌÀÖ´Â ±ÔÄ¢µé¸¸À» »Ì¾Æ³»´Â ±âÁØÀÌ ÇÊ¿äÇѵ¥, ÀÌ°ÍÀÌ ±Ù°ÅÈ®·ü(support), ½Å·ÚÈ®·ü(confidence), ±×¸®°í ¸®ÇÁÆ®(lift)ÀÌ´Ù.

±×¸² 4 µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º°¡ Á¦°øÇÏ´Â ¿¬°ü±ÔÄ¢ÀÇ ¿¹

±×¸² 5 ±Ù°ÅÈ®·ü°ú ½Å·ÚÈ®·ü

Ç¥ ¸®ÇÁÆ®ÀÇ ÀÇ¹Ì ¹× ¿¹

¸®ÇÁÆ®

ÀǹÌ

¿¹

1

Ç°¸ñ »óÈ£ µ¶¸³ÀûÀÎ °ü°è

°úÀÚ¿Í ÈÄÃß

>1

Ç°¸ñ »óÈ£ ¾çÀÇ »ó°ü°ü°è

½Ä»§°ú ¹öÅÍ

<1

Ç°¸ñ »óÈ£ À½ÀÇ »ó°ü°ü°è

º¯ºñ¾à°ú Áö»çÁ¦

   µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º¸¦ ÀÌ¿ëÇÏ¿© ¿¬°ü±ÔÄ¢À» µµÃâÇÒ ¶§´Â ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ±×¸®°í ¸®ÇÁÆ®ÀÇ ÃÖ¼Ò±âÁØÄ¡(lower bound)¸¦ ¹Ì¸® ¼³Á¤ÇÏ°í, ÀÌ ±âÁØÀ» ¸¸Á·ÇÏ´Â ±ÔÄ¢¸¸À» »ý¼ºÇÏ°Ô ÇÔÀ¸·Î½á ±ÔÄ¢ÀÇ ¼ö¸¦ Á¦ÇÑÇÒ ¼ö ÀÖ´Ù. ¾Æ¿ï·¯ ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ±×¸®°í ¸®ÇÁÆ®´Â µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º°¡ Á¦½ÃÇÏ´Â ±ÔÄ¢µéÀ» Æò°¡Çϴµ¥ »óÈ£º¸¿ÏÀûÀÎ ±â´ÉÀ» Á¦°øÇϴµ¥ ¿¹¸¦ µé¾î, ¾î´À ÇÑ ¿¬°ü±ÔÄ¢ÀÇ ½Å·ÚÈ®·üÀÌ Å©´õ¶óµµ µÎ Ç°¸ñÀÇ °øÅë ±¸¸ÅÀ², Áï ±Ù°ÅÈ®·üÀÌ ¾î´À Á¤µµ ¼öÁØÀÌ µÇ¾î¾ß Àǹ̰¡ ÀÖ´Ù. ¶ÇÇÑ ¿¬°ü±ÔÄ¢ 'A¢¡B'ÀÇ ½Å·ÚÈ®·üÀÌ ³ôÀº °æ¿ì¿¡µµ Ç°¸ñ B°¡ ±¸¸ÅµÇ´Â ±âº» È®·üÀÌ Ä¿¾ß A¸¦ °í·ÁÇؼ­ B¸¦ »ý°¢ÇÏ´Â °ÍÀÌ Àǹ̰¡ ÀÖÀ¸¹Ç·Î ¸®ÇÁÆ® °ªÀÌ 1º¸´Ù Ä¿¾ß À¯¿ëÇÑ Á¤º¸°¡ µÈ´Ù.
  ±×¸² 6Àº °³¿ä¿¡¼­ data mining ÀÛ¾÷À¯ÇüÀÇ ¿¬°ü±ÔÄ¢¿¡¼­ ¿¹½ÃÇÑ ÀÇ·ù»óÁ¡ ÆǸŠµ¥ÀÌÅͷκÎÅÍ µÎ Ç°¸ñ°£ÀÇ ¿¬°ü°ü°è¸¦ µµÃâÇÑ ÈÄ, ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ±×¸®°í ¸®ÇÁÆ®¸¦ °è»êÇÑ ¿¹ÀÌ´Ù. ¿©±â¿¡¼­ Á¦½ÃÇÑ µÎ Á¾·ùÀÇ ¿¬°ü±ÔÄ¢Àº »óÈ£´ëĪÀûÀε¥ ±Ù°ÅÈ®·ü°ú ¸®ÇÁÆ®´Â º¯È­°¡ ¾øÀ¸³ª ½Å·ÚÈ®·üÀº ¹Ù²î¾úÀ½À» ¾Ë ¼ö ÀÖ´Ù.

±×¸² 6 ¿¬°ü±ÔÄ¢ÀÇ ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ¸®ÇÁÆ® »êÃâ ¿¹

  (1) ÀåÁ¡

  (2) ´ÜÁ¡

 

5. K-Æò±Õ±ºÁýÈ­(K-Means Clustering)

  K-Æò±Õ±ºÁýÈ­´Â data miningÀÇ ±ºÁýÈ­ ÀÛ¾÷¿¡ ÁÖ·Î »ç¿ëµÈ´Ù. ÀÌ ±â¹ýÀº N°³ÀÇ ¼Ó¼ºÀ¸·Î ±¸¼ºµÇ´Â °¢°¢ÀÇ ·¹Äڵ带 º¤ÅͷΠǥ½ÃÇÏ¿© NÂ÷¿øÀÇ µ¥ÀÌÅÍ °ø°£(space)¿¡ ³ªÅ¸³¾ ¶§, À¯»çÇÑ Æ¯¼ºÀ» °®´Â ·¹ÄÚµåµéÀº ¼­·Î ±ÙÁ¢ÇÏ¿© À§Ä¡ÇÑ´Ù´Â °¡Á¤¿¡ ±Ù°ÅÇÏ°í ÀÖ´Ù. ¿©±â¿¡¼­ ¿µ¹®ÀÚ 'K'´Â K°³ÀÇ ±ºÁýÀ» ÀǹÌÇÑ´Ù.
  ´ÙÀ½ÀÇ »ç·Ê´Â K-Æò±Õ±ºÁýÈ­ ±â¹ýÀ» 2Â÷¿ø °ø°£¿¡¼­ Àû¿ëÇÏ´Â ¿¹(ÀÚ·á¿ø : Data Mining Techniques for Marketing, Sales, and Customer Support by M. Berry and G. Linoff, John Wiley & Sons, 1997)·Î¼­, (¿ù¼öÀÔ, ¿¬·É)À¸·Î ±¸¼ºµÈ 20°³ÀÇ ·¹ÄÚµåµéÀ» 3Á¾·ù(K=3)ÀÇ ±ºÁý(ºÎ·ù)À¸·Î ºÐ·ùÇÏ´Â ÀÛ¾÷À» ´Ü°èº°·Î ¼³¸íÇÏ°íÀÚ ÇÑ´Ù.
  Ã¹ ´Ü°è´Â ±×¸² 7°ú °°ÀÌ 20°³ÀÇ ·¹ÄÚµåµé Áß¿¡¼­ 3°³ÀÇ ·¹Äڵ带 ÀÓÀÇ·Î ¼±ÅÃÇÏ¿© °¢ ±ºÁýÀÇ Á߽ɰªÀ¸·Î ÁöÁ¤ÇÑ ÈÄ, ³ª¸ÓÁö ·¹ÄÚµåµéÀÌ ¼Ò¼ÓµÉ ±ºÁýÀ» °áÁ¤ÇÏ°í ±ºÁý°£ÀÇ °æ°è¼±À» ±ß´Â´Ù.

±×¸² 7 ±ºÁýº° Ãʱâ Á߽ɰª°ú °æ°è¼±

  ´Ü, ¼Ò¼Ó ±ºÁýÀÇ °áÁ¤ ±âÁØÀº °¢ ·¹ÄÚµå¿Í 3°³ Á߽ɰª°úÀÇ Á÷¼± °Å¸® Áß¿¡¼­ °¡Àå ªÀº Á߽ɰªÀ¸·Î ÇÑ´Ù. ¿¹¸¦ µé¾î ù ¹ø° ±ºÁýÀÇ Á߽ɰªÀÌ (80, 25), µÎ ¹ø° ±ºÁýÀÇ Á߽ɰªÀÌ (100, 40), ¼¼ ¹ø°°¡ (125, 30)ÀÌ°í, ù° ·¹ÄÚµåÀÇ °ªÀÌ (90, 45)À̶ó¸é ÀÌ ·¹ÄÚµå¿Í ù ¹ø° ±ºÁýÀÇ Á߽ɰª°úÀÇ Á÷¼±°Å¸®´Â ´ÙÀ½°ú °°ÀÌ °è»êµÈ´Ù.

  ¸¶Âù°¡Áö ¹æ¹ýÀ¸·Î µÎ ¹ø°, ¼¼ ¹ø° ±ºÁýÀÇ Á߽ɰª°úÀÇ Á÷¼±°Å¸®¸¦ °è»êÇÏ¸é °¢°¢ 11.2¿Í 38.1ÀÌ µÈ´Ù. µû¶ó¼­ ù° ·¹ÄÚµå´Â ÀÏ´Ü µÎ ¹ø° ±ºÁýÀ¸·Î ºÐ·ùµÈ´Ù. ¶ÇÇÑ µÎ ±ºÁý°£ÀÇ °æ°è¼±Àº µÎ Á߽ɰª°ú °°Àº °Å¸®¿¡ À§Ä¡ÇÑ ÁÂÇ¥µéÀÇ ÁýÇÕ, Áï Á÷¼±ÀÌ µÈ´Ù. ±×¸²¿¡¼­´Â ù ¹ø°, µÎ ¹ø°, ¼¼ ¹ø° ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµåµéÀ» °¢°¢ »ï°¢Çü, ¿ø, »ç°¢ÇüÀ¸·Î Ç¥½ÃÇÏ°í ÀÖ´Ù.
  ´ÙÀ½ ´Ü°è·Î´Â °¢ ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµåµéÀÇ Á߽ɰªÀ» ÀçÃøÁ¤ÇÑ´Ù. Áï ù ¹ø° ±ºÁýÀÇ »õ·Î¿î Á߽ɰªÀº ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµåµéÀÇ ¿ù¼öÀÔ Æò±Õ°ª°ú ¿¬·É Æò±Õ°ªÀÌ µÈ´Ù. Á߽ɰªÀÌ ±¸ÇØÁö¸é ù ´Ü°è¿¡¼­¿Í ¸¶Âù°¡Áö·Î °¢ ·¹Äڵ忡 ´ëÇØ ±ºÁýÀÇ Á߽ɰª°ú Á÷¼± °Å¸®¸¦ ÃøÁ¤ÇÏ¿© °¡Àå ±ÙÁ¢ÇÑ ±ºÁý¿¡ Æ÷ÇÔ½ÃŲ ÈÄ, ±ºÁý°£ÀÇ °æ°è¼±À» Ç¥½ÃÇÑ´Ù. ±×¸² 8Àº °ú°ÅÀÇ Á߽ɰªµéÀÌ »õ·Î¿î Á߽ɰª(½ÊÀÚÇüÀ¸·Î Ç¥½ÃµÈ °÷)À¸·Î À̵¿ÇÏ´Â ¸ð½À°ú ±ºÁýº° °æ°è¼±, ±×¸®°í °¢ ±ºÁý¿¡ ¼ÓÇÏ´Â ·¹ÄÚµåµéÀ» º¸¿©ÁÖ°í ÀÖ´Ù. ƯÈ÷ ù ¹ø° ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµå(»ï°¢ÇüÀ¸·Î Ç¥½Ã) Áß Çϳª´Â Á߽ɰªÀÌ À̵¿ÇÔ¿¡ µû¶ó »õ·Ó°Ô ÀÌ ±ºÁý¿¡ Æ÷ÇÔµÈ °ÍÀ» ¾Ë ¼ö ÀÖ´Ù. »õ·Î¿î ±ºÁýÀÌ Çü¼ºµÇ¸é ÀÌÀü ´Ü°èÀÇ °úÁ¤À» Á߽ɰªÀÇ À̵¿ÀÌ ¹ÌºñÇÒ ¶§±îÁö, Áï °æ°è¼±ÀÇ º¯È­°¡ °ÅÀÇ ¾øÀ» ¶§±îÁö ¹Ýº¹ÀûÀ¸·Î ½ÇÇàÇÑ´Ù.
  À§ÀÇ »ç·Ê¿¡¼­ º¸µíÀÌ K-Æò±Õ±ºÁýÈ­ ±â¹ýÀº ÀÌÇØÇϱⰡ ½±°í, ¿¬·ÉÀ̳ª ¿ù¼öÀÔ µî°ú °°ÀÌ ¸ðµç ¼Ó¼ºÀÌ Å©±â¸¦ °¡¸§ÇÒ ¼ö ÀÖ´Â ¿¬¼ÓÇü °ªÀ» ÃëÇÒ °æ¿ì¿¡ Àû¿ëÇϱ⠽±´Ù. ±×·¯³ª µ¥ÀÌÅÍ¿¡ ¼ºº°À̳ª Çз µî°ú °°Àº ¸í¸ñÇü °ªµéÀÌ Æ÷ÇԵǾî ÀÖÀ¸¸é ·¹Äڵ尣ÀÇ Á÷¼±°Å¸®¸¦ ÃøÁ¤Çϱ⠾î·Æ´Ù´Â ¹®Á¦°¡ ÀÖ´Ù. ¶ÇÇÑ °Å¸® ÃøÁ¤½Ã NÂ÷¿ø °ø°£¿¡¼­ ¸ðµç ¼Ó¼ºÀÇ °øÇåµµ¸¦ °°´Ù°í ÀÎÁ¤ÇÑ´Ù. ¿¹¸¦ µé¾î ÇÑ ·¹ÄÚµåÀÇ (¿ù¼öÀÔ, ¿¬·É)ÀÇ °ªÀÌ (100, 30)ÀÌ°í ´Ù¸¥ ·¹ÄÚµåÀÇ °ªÀÌ (90, 40)À̸é, ÀÌµé µÎ ·¹ÄÚµå¿Í ±ºÁýÀÇ Á߽ɰª (80, 20)°úÀÇ Á÷¼±°Å¸®´Â °°±â ¶§¹®¿¡ µ¿ÀÏÇÑ ±ºÁý¿¡ ¼ÓÇÏ°Ô µÈ´Ù. ±×·¯³ª ½ÇÁ¦·Î´Â ¾î´À ÇÑ ¼Ó¼ºÀÇ Áß¿äµµ°¡ ´Ù¸¥ ¼Ó¼ºº¸´Ù ³ôÀº °æ¿ì°¡ ¸¹À¸¸ç, ÀÌ·¯ÇÑ Á¡À» ¹Ý¿µÇÏ¿© ±ºÁýÀ» ¸¸µé¾î¾ß Àǹ̰¡ ÀÖ´Ù. ÀÌ¿Í °°Àº ¹®Á¦Á¡µéÀ» °¨¾ÈÇÏ¿© °Å¸® °è»ê¿¡ ÀÖ¾î ¸í¸ñÇü µ¥ÀÌÅÍÀÇ °ªÀÌ ¼­·Î ´Ù¸¦ °æ¿ì 0À¸·Î °£ÁÖÇÑ´ÙµçÁö, ¼Ó¼ºº°·Î ¼­·Î ´Ù¸¥ °¡ÁßÄ¡¸¦ ºÎ¿©ÇÏ´Â ¹æ½Ä µî »õ·Ó°Ô º¯ÇüµÈ K-Æò±Õ±ºÁýÈ­ ±â¹ýµéÀÌ µîÀåÇÏ°í ÀÖ´Ù.

±×¸² 8 ±ºÁýº° Á߽ɰª ¹× °æ°è¼±ÀÇ À̵¿

  (1) ÀåÁ¡

  (2) ´ÜÁ¡