Text  Mining

 

±â¾÷¿¡¼­ »ý¼º, ÀúÀå, Àç»ç¿ëÇÏ´Â Á¤º¸ Áß 20% ¸¸ÀÌ È°¿ë¼ºÀÌ ³ôÀº Á¤Çü µ¥ÀÌÅÍ·Î ±¸¼ºµÇ¾î ÀÖ°í, ³ª¸ÓÁö 80% ´Â ¿öµåÇÁ·Î¼¼¼­, e-mail, ÇÁ¸®Á¨Å×À̼Ç, ½ºÇÁ·¹µå½ÃÆ®, PDF ¿Í °°Àº º¹ÇÕ¹®¼­¿Í ÀÎÅÍ³Ý ÆäÀÌÁö µîÀÇ ºñÁ¤Çü ÅؽºÆ® ÇüÅ·Π±¸¼ºµÇ¾î ÀÖ´Ù. Á¤Çüµ¥ÀÌÅÍÀÇ SQL °Ë»öÀ¸·ÎºÎÅÍ ½ÃÀÛÇÑ Á¤º¸°Ë»ö (Information Retrieval) Àº ºñÁ¤Çü Å×ÀÌÅ͸¦ À§ÇÑ °Ë»öÀ¸·Î ¹ßÀüÇÏ°Ô µÇ°í ´Ù¾çÇÑ °Ë»ö agent¸¦ ÀÌ¿ëÇÑ À¥ °Ë»öÀ¸·Î ¹ßÀüÇÏ°Ô µÈ´Ù. ±×·¯³ª °Ë»ö¿£ÁøµéÀÌ ³Ê¹«³ª ¸¹Àº Á¤º¸¸¦ °Ë»öÇØ Áֱ⠽ÃÀÛÇϸ鼭 °Ë»öÀÇ ¹®Á¦´Â ¿øÇÏÁö ¾Ê´Â Á¤º¸µé »çÀÌ¿¡¼­ À¯¿ëÇÑ Á¤º¸¸¦ ã´Â °ÍÀ¸·Î º¯È­ÇÏ¿´´Ù. ÀÌ¿Í°°Àº Á¤º¸°Ë»ö ȯ°æ¿¡¼­ À¯¿ëÇÑ Á¤º¸¸¦ È¿°úÀûÀ¸·Î ã±âÀ§Çؼ­ ºñÁ¤Çü µ¥ÀÌÅÍÀÎ ¹®¼­·ÎºÎÅÍ À¯¿ëÇÑ Á¤º¸¸¦ ÃßÃâÇÏ°í °¡°øÇÏ´Â ±â¼úÀÇ Çʿ伺ÀÌ ´ëµÎµÇ°Ô µÇ¾ú´Ù.

´ë·®ÀÇ Á¤º¸¸¦ È¿°úÀûÀ¸·Î ´Ù·ê ¼ö ÀÖ´Â ¹æ¹ý¿¡ ´ëÇÑ ¿¬±¸´Â ÀÌ¹Ì È°¹ßÈ÷ ÁøÇàµÇ°í ÀÖ´Ù. DB ¿¡ ÀúÀåµÈ ÀÚ·á¿Í °°ÀÌ Á¤ÇüÈ­µÈ µ¥ÀÌÅͷκÎÅÍ Á¤º¸¸¦ ÃßÃâ, °¡°øÇÏ´Â µ¥ÀÌŸ¸¶ÀÌ´× (Data Mining) Àº ÀÌ¹Ì ½Ç¿ë¼ºÀ» °®Ãß°í ¸¹Àº ºÐ¾ß¿¡¼­ ³Î¸® È°¿ëµÇ°í ÀÖ´Ù. ±×·¯³ª µðÁöÅÐ Á¤º¸ÀÇ ´ëºÎºÐÀº ºñÁ¤Çü µ¥ÀÌÅͷμ­, Text Mining Àº ÀÌ·¯ÇÑ ºñ/¹ÝÁ¤Çü µ¥ÀÌÅÍ¿¡ ´ëÇÏ¿© ÀÚ¿¬¾îó¸® (Natural Language Processing)  ±â¼ú°ú  ¹®¼­Ã³¸® ±â¼úÀ» Àû¿ëÇÏ¿© À¯¿ëÇÑ Á¤º¸¸¦ ÃßÃâ, °¡°øÇÏ´Â °ÍÀ» ¸ñÀûÀ¸·Î ÇÏ´Â ±â¼úÀÌ´Ù. ¹®¼­¿ä¾à (summarization), Ư¼ºÃßÃâ (feature extraction) µîÀÌ text mining ÀÇ ÇÙ½É ¿¬±¸ºÐ¾ß¸ç ±× ÀÀ¿ë ºÐ¾ß´Â ¸Å¿ì ´Ù¾çÇÏ´Ù.

Data mining °üÁ¡¿¡¼­ ¹®¼­·ÎºÎÅÍ ±¸Á¶È­µÈ Á¤º¸¸¦ ÃßÃâÇÏ¿© database È­ ½ÃÅ°°Å³ª ±ÔÄ¢À» ã¾Æ³»´Â °ÍÀº °¡Àå ÀϹÝÀûÀÎ ÀÀ¿ëÀ̸ç, »ç¿ëÀÚ°¡ Web »ó¿¡¼­ ¹®¼­¸¦ ã´Â °ÍÀ» µµ¿ÍÁְųª »ç¿ëÀÚ profile ÀÇ »ý¼º ¹× ºÐ¼®, ¹®¼­¿¡ ¾²ÀÎ ÀÚ¿¬¾ð¾î ½Äº°, ´ë·® DB¿¡¼­ ¹®¼­ÀÇ ºÐ·ù ¹× ±ºÁýÈ­, ¹®¼­ºÐ·ù (Text Categorization) Á¤º¸¸¦ ÀÌ¿ëÇÑ ¹®¼­ ÀçÇؼ®, ½Å¹®/³í¹®/º¸°í¼­ ¿ä¾à, ¹®¼­ ¹ø¿ª, ½Ã°è¿­ (time series) Á¤º¸ÀÇ È¹µæÀ» ÅëÇÑ ½ÃÀå ¹× À§Çèµµ ºÐ¼®, ¹®¼­ »öÀÎ, ¹®¼­ ¿©°ú (filtering) ¹× Ãßõ (recommendation), ´ëÇ¥Àû Å°¿öµå³ª ÅäÇÈ (topic) ÀÇ ÃßÃâ, ÁúÀÇÀÀ´ä ½Ã½ºÅÛ (Question Answering System), ´ë±Ô¸ð ¹®¼­¿¡¼­ÀÇ Å½»ö µîÀÌ °¡Àå ´ëÇ¥ÀûÀÎ ÀÀ¿ëºÐ¾ß¶ó ÇÒ ¼ö ÀÖ´Ù.

term :

ÅؽºÆ®¸¶ÀÌ´× (Text Mining)     ÀÚ¿¬¾îó¸® (Natural Language Processing)   Á¤º¸°Ë»ö (Information Retrieval)    ¹®¼­ºÐ·ù (Text Categorization)

site :

Wikipedia : Text mining

paper :

ÅؽºÆ®¸¶ÀÌ´× ±â¹Ý °íÁ¤¹Ð °Ë»ö½Ã½ºÅÛ : ÀÌ°æÀÏ, ¼­Çü±¹, ¾Èżº, Çѱ¹Á¤º¸Ã³¸®ÇÐȸ 11±Ç 2È£, 2004

A Preliminary Study on Clinical Decision Support System based on Classification Learning of Electronic Medical Records : ¾ç½Å±Ô, Çѱ¹µ¥ÀÌÅÍÁ¤º¸°úÇÐȸ 14±Ç 4È£, 2003

ÀÎÅÍ³Ý ´º½º ±â»ç¿¡ ´ëÇÑ ÀÚµ¿ºÐ·ù Á¤º¸½Ã½ºÅÛ¿¡ °üÇÑ ¿¬±¸ : ¼­¿ë¹«, ¹é¿ë±Ô, Çѱ¹°æ¿µÁ¤º¸ÇÐȸ Ãß°èÇмú´ëȸ, 2003