Corpus Linguistics

 

.......... Çѱ¹¾î·Î´Â '¸»¹¶Ä¡' ȤÀº '¸»¸ðµÒ'À¸·Î ¹ø¿ªÇÏ´Â, ÄÚÆÛ½º(corpus)´Â ±Û ¶Ç´Â ¸» ÅؽºÆ®¸¦ ¸ð¾Æ ³õÀº °ÍÀÌ´Ù. ´Ù¾çÇÑ Á¾·ùÀÇ ÅؽºÆ®¸¦ ¸ð¾Æ ³õÀº ¼º°æÀº ÀÌ·¯ÇÑ ³ÐÀº Àǹ̿¡¼­ ÀÏÁ¾ÀÇ ÄÚÆÛ½ºÀÌ´Ù. ȤÀº ¼ÎÀͽºÇǾîÀÇ ÀúÀÛµéÀ» ¸ð¾Æ ³õÀº °Íµµ ¼ÎÀͽºÇǾî ÄÚÆÛ½ºÀÌ´Ù. ±×·¯³ª Á»´õ Á¼Àº Àǹ̿¡¼­ ÄÚÆÛ½º¾ð¾îÇÐÀÇ ÄÚÆÛ½º´Â ´ÙÀ½°ú °°Àº ±âÁØÀ» ¸¸Á·ÇÏ´Â ÅؽºÆ®ÀÇ ÁýÇÕÀ» ¸»ÇÑ´Ù. ¿ì¼±, ÄÚÆÛ½º´Â ¾ð¾î ¿¬±¸¸¦ ¿°µÎ¿¡ µÎ°í ±¸ÃàµÈ´Ù. µû¶ó¼­, ÄÚÆÛ½ºÀÇ ÅؽºÆ®µéÀº ¾ð¾î ¿¬±¸¸¦ À§ÇÑ ¾î¶² ±âÁØ¿¡ ÀÇÇØ ¼±ÅõȴÙ--Çö´ë Çѱ¹¾î ÀϹÝÀ» ´ëÇ¥ÇÏ´Â ÄÚÆÛ½º, ½Å¹® ±â»ç ÄÚÆÛ½º, ÀÏ»ó ´ëÈ­ ÄÚÆÛ½º, ¿©¼º ÀÛ°¡ÀÇ ¼Ò¼³ ÄÚÆÛ½º µî. ±×¸®°í, Çö´ëÀÇ ÄÚÆÛ½º¾ð¾îÇп¡¼­ ¸»ÇÏ´Â ÄÚÆÛ½º´Â ÄÄÇ»ÅÍ¿¡ ÀúÀåÇÏ°í ÄÄÇ»ÅÍ¿¡¼­ ó¸®ÇÒ ¼ö ÀÖ´Â ÇüÅÂÀÇ, ÀüÀÚÈ­µÈ ÅؽºÆ®, Áï ºñÆ®·Î ±¸¼ºµÈ °ÍÀ» ¸»ÇÑ´Ù.

¸»¹¶Ä¡ ¾ð¾îÇÐ (Corpus Linguistics) Àº ÀÌ·¯ÇÑ (ÀüÀÚ) ÄÚÆÛ½º¸¦ ¹ÙÅÁÀ¸·Î ÄÄÇ»Å͸¦ ÀÌ¿ëÇÏ¿© ¾ð¾îÇÐÀû ¿¬±¸¸¦ ¼öÇàÇÏ´Â ¾ð¾î ¿¬±¸ÀÇ ¹æ¹ýÀÌ´Ù. ÀüÅëÀûÀÎ ¹®¹ý(¹®¹ý·Ð), ÀǹÌ(Àǹ̷Ð), ¾îÈÖ(»çÀüÇÐ)ÀÇ ¹®Á¦¸¦ ¿¬±¸ÇÏ´Â µ¿½Ã¿¡, ÀüÀÚ»çÀü(electronic dictionary / computational lexicon), ¾îÈÖµ¥ÀÌÅ׺£À̽º(lexical database), Åë°èÀû ÀÚ¿¬¾ð¾îó¸®(statistical NLP)  µîÀÇ ¿¬±¸ ºÐ¾ß¸¦ Æ÷ÇÔÇÑ´Ù. .........

¸»¹¶Ä¡¶õ ¹®ÀÚ ¶Ç´Â À½¼º ÅؽºÆ® ¸ðµëÀ» °¡¸®Å°´Â ¸»·Î¼­, Á¼Àº Àǹ̷Π¾ð¾î ¿¬±¸¸¦ ¿°µÎ¿¡ µÎ°í ±¸ÃàµÈ ÅؽºÆ®¸¦ °¡¸®Å°´Â ¸»ÀÌ´Ù. ½Å¹® ±â»ç ÄÚÆÛ½º, ÀÏ»ó ´ëÈ­ ÄÚÆÛ½º, ¿©·ù ¼Ò¼³ ÄÚÆÛ½º µîÀÌ ±× ¿¹ÀÌ´Ù. ¾Æ¿ï·¯ ¸»¹¶Ä¡´Â ÄÄÇ»ÅÍ¿¡ ÀúÀåÇÏ°í ÄÄÇ»ÅÍ¿¡¼­ ó¸®ÇÒ ¼ö ÀÖ´Â ÇüÅÂÀÇ ÀüÀÚÈ­µÈ ÅؽºÆ®¸¦ °¡¸®Å²´Ù. Áï ¸»¹¶Ä¡ ¾ð¾îÇÐÀº ÀÌ·¯ÇÑ ÀüÀÚ ¸»¹¶Ä¡¸¦ ¹ÙÅÁÀ¸·Î ÄÄÇ»Å͸¦ ÀÌ¿ëÇÏ¿© ¾ð¾îÇÐÀû ¿¬±¸¸¦ ¼öÇàÇÏ´Â ¾ð¾î ¿¬±¸ÀÇ ¹æ¹ýÀÌ´Ù. ÀüÅëÀûÀÎ ¹®¹ý, ÀǹÌ, ¾îÈÖÀÇ ¹®Á¦¸¦ ¿¬±¸ÇÏ´Â µ¿½Ã¿¡, ÀüÀÚ»çÀü, ¾îÈÖµ¥ÀÌÅ׺£À̽º, Åë°èÀû ÀÚ¿¬¾ð¾îó¸® µîÀÇ ¿¬±¸ ºÐ¾ß¸¦ Æ÷ÇÔÇÑ´Ù.

¸»¹¶Ä¡ ¾ð¾îÇÐÀº ¸»¹¶Ä¡¸¦ ±â¹ÝÀ¸·Î ÇÑ ¾ð¾îÇÐÀÇ ÇÑ ºÐ¾ß·Î¼­, 1950³â´ë µîÀåÇÑ ¹Ì±¹ÀÇ ½ÇÁõÁÖÀÇ-ÇൿÁÖÀÇÀû ±¸Á¶ÁÖÀÇ ¾ð¾îÇÐÀÚµéÀÌ ½ÇÁ¦ ¾ð¾îÀڷḦ ¾ð¾îÇÐÀÇ ÀÏÂ÷ÀûÀÎ ¼³¸í ´ë»óÀ¸·Î »ï¾Æ Ãâ¹ßÇÑ´Ù. ±×·¯³ª ½ÇÁúÀûÀÎ ¸»¹¶Ä¡ ¾ð¾îÇÐÀÇ Ãâ¹ßÀº 1959³â ´õ·³(Durham) ´ëÇÐ, 1960³â ·±´ø ´ëÇп¡¼­ ¿µ¾î ¿ë¹ý Á¶»ç ¸»¹¶Ä¡(Survey of English Usage Corpus)¶ó´Â À̸§À¸·Î ¿µ¾îÀÇ ½ÇÁ¦ ¾²ÀÓÀ» ±¤¹üÀ§ÇÏ°Ô Á¶»çÇϱ⠽ÃÀÛÇÑ µ¥¼­ºÎÅÍ ºñ·ÔµÇ¸ç, ¸»¹¶Ä¡ ¿¬±¸°¡ º»°ÝÈ­µÈ °ÍÀº ºê¶ó¿î ´ëÇÐÀÇ ÇÁ·£½Ã½º(W. N. Francis)¿Í Äíü¶ó(Kucera)°¡ 20Á¾¿¡ °ÉÄ£ ÃÑ 500ÆíÀÇ ±Û¿¡¼­ 2000 ¸¶µð¾¿ »Ì¾Æ ÃÑ 100¸¸ ¸¶µðÀÇ ¸»¹¶Ä¡¸¦ ±¸ÃàÇÏ°í ÄÄÇ»Å͸¦ ÀÌ¿ëÇÏ¿© ºÐ¼®ÇÑ ÀÌÈĺÎÅͶó°í ÇÒ ¼ö ÀÖ´Ù. ............ (¾ð¾îÇлçÀü : ±èÇüÁÖÀÇ ±Û¸»´åÄÄ)

term :

¾ð¾îÇÐ (Linguistics)   ÀΰøÁö´É (Artificial Intelligence)    ÀÚ¿¬¾îó¸® (Natural Language Processing)   ¸»¹¶Ä¡ (Corpus)

site :

computational corpus linguistics : °­¹ü¸ð, °í·Á´ë ¾ð¾î°úÇаú

CETConc : °í·Á´ë ¹ÎÁ·¹®È­¿¬±¸¿ø ÀüÀÚÅؽºÆ®¿¬±¸¼Ò ¿ë·ÊÃßÃâ±â