À½ ¼º ÀÎ ½Ä

 

À½¼º¾ð¾î Á¤º¸Ã³¸® : ¿À¿µÈ¯, È«¸ª°úÇÐÃâÆÇ»ç, 1998, Page 91~99

 

1. °³¿ä

2. À½¼ºÀνÄÀÇ ÇöȲ

   À½¼ºÀνÄÀÇ ¿ª»ç

 

1. °³¿ä

À½¼º ÀνÄÀº ÀϹÝÀûÀ¸·Î ¸¶ÀÌÅ©³ª ÀüÈ­¸¦ ÅëÇÏ¿© ¾ò¾îÁø À½ÇâÇÐÀû ½ÅÈ£¸¦ ´Ü¾î³ª ´Ü¾î ÁýÇÕ ¶Ç´Â ¹®ÀåÀ¸·Î º¯È¯ÇÏ´Â °úÁ¤À» ¸»ÇÑ´Ù. ÀÎ½ÄµÈ °á°ú´Â ¸í·ÉÀ̳ª Á¦¾î, µ¥ÀÌÅÍ ÀÔ·Â, ¹®¼­ Áغñ µîÀÇ ÀÀ¿ë ºÐ¾ß¿¡¼­ ÃÖÁ¾ °á°ú·Î »ç¿ëµÉ ¼ö ÀÖÀ¸¸ç, À½¼ºÀÌÇØ¿Í °°Àº ºÐ¾ß¿¡´Â ¾ð¾î 󸮰úÁ¤ÀÇ ÀÔ·ÂÀ¸·Î »ç¿ëµÉ ¼ö ÀÖ´Ù.

À½¼º ÀÎ½Ä ½Ã½ºÅÛÀº ¿©·¯ °¡Áö Ç׸ñµé¿¡ ÀÇÇÏ¿© Ư¡ Áö¿öÁú ¼ö ÀÖ´Ù. ¸ÕÀú °í¸³´Ü¾î ÀÎ½Ä (isolated word recognition) Àº ´Ü¾î°£ÀÇ °æ°è¸¦ ³ªÅ¸³»±â À§ÇÏ¿© ÈÞÁö±â°£À» ÇÊ¿ä·Î ÇÏÁö¸¸, ¿¬¼Ó À½¼º ÀÎ½Ä (continuous speech recognition) Àº ´Ü¾î°£ÀÇ °æ°è¸¦ ³ªÅ¸³»±â À§ÇÑ ¸í½ÃÀûÀÎ Á¶°ÇÀ» ÇÊ¿ä·Î ÇÏÁö ¾Ê´Â´Ù. ¶ÇÇÑ, ÁïÈïÀûÀ̸ç ÀÚ¿¬½º·¯¿î À½¼º (spontaneous speech) Àº ¸»´õµë°ú °°Àº ¹ß¼º Çö»óÀÌ Æ÷ÇԵDZ⠶§¹®¿¡ ÀÏÁ¤ÇÑ Çü½Ä¿¡ µû¶ó Àд À½¼º (read speech) º¸´Ù ÀνÄÇϱⰡ ´õ¿í ¾î·Æ°Ô µÈ´Ù. ¾î¶² ½Ã½ºÅÛÀº Àνı⸦ »ç¿ëÇϱâ Àü¿¡ ÀÚ½ÅÀÇ À½¼º »ùÇÃÀ» Á¦°øÇÏ¿© È­ÀÚ¸¦ µî·ÏÇϱ⠶§¹®¿¡ È­ÀÚ Á¾¼Ó (speaker-dependent) ½Ã½ºÅÛÀ̶ó ºÒ¸®¸ç, ´Ù¸¥ ½Ã½ºÅÛÀº µî·ÏÀ» ÇÊ¿ä·Î ÇÏÁö ¾Ê±â ¶§¹®¿¡ È­ÀÚ µ¶¸³ (speaker-independent) ½Ã½ºÅÛÀ¸·Î ºÒ¸°´Ù. ÀνĿ¡ »ç¿ëµÇ´Â ¾îÈÖ°¡ ¹æ´ëÇϰųª À¯»ç ´Ü¾î°¡ ¸¹À¸¸é ÀνÄÀº ±×¸¸Å­ ´õ ¾î·Á¿öÁø´Ù. ¶ÇÇÑ, À½¼ºÀÌ ´Ü¾î¿­·Î¼­ ¹ß¼ºµÉ ¶§, ¾ð¾î³ª ÀÎÀ§Àû ¹®¹ýÀ¸·Î ´Ü¾îÀÇ Á¶ÇÕÀÌ Á¦ÇÑµÉ ¼ö°¡ ÀÖ´Ù. °¡Àå °£´ÜÇÑ ¾ð¾î ¸ðµ¨Àº °¢ ´Ü¾î ´ÙÀ½¿¡ ¿Ã ¼ö ÀÖ´Â ´Ü¾î ´ÙÀ½¿¡ ¿Ã ¼ö ÀÖ´Â ´Ü¾î¸¦ ¸í½ÃÀûÀ¸·Î ³ª¿­ÇÑ À¯ÇÑ »óÅ ³×Æ®¿öÅ© (finite-state network) ·Î Á¤ÀÇÇÏ´Â °ÍÀ̸ç, Á» ´õ ÀϹÝÀûÀÎ ¸ðµ¨Àº ÀÚ¿¬ ¾ð¾î¸¦ ¹®¸Æ¿¡ ¿µÇâÀ» ¹ÞÀº ¹®¹ý (context-sensitive grammar) À¸·Î ±Ù»çÇÏ´Â ¹æ¹ýÀÌ´Ù.

ÀÎ½Ä ´ë»ó ÀÛ¾÷ÀÇ ³­À̵µ¸¦ ÃøÁ¤ÇÏ´Â º¸ÆíÀûÀÎ ¹æ¹ýÀ¸·Î´Â ¾îÈÖÀÇ ¼ö¿Í ¾ð¾î ¸ðµ¨À» °áÇÕ½ÃŲ ¹æ¹ýÀ¸·Î ¾ð¾î ¸ðµ¨À» Àû¿ë½ÃŲ ÈÄ, °¢ ´Ü¾î ´ÙÀ½¿¡ ¿Ã ¼ö ÀÖ´Â ´Ü¾îÀÇ ¼ö¸¦ ±âÇÏÇÐÀûÀÎ ¹æ¹ýÀ¸·Î Á¤ÀÇÇÑ È¥Àâµµ (perplexity) ¸¦ ÀÌ¿ëÇÏ´Â ¹æ¹ýÀÌ ÀÖ´Ù. ¾Õ¼­ ¾ð±ÞµÈ À½¼º ÀÎ½Ä ½Ã½ºÅÛ¿¡ ¿µÇâÀ» ÁÖ´Â Ç׸ñµé ÀÌ¿Ü¿¡ ÁÖÀ§ ȯ°æ ÀâÀ½, ¸¶ÀÌÅ©ÀÇ Á¾·ù, ±×¸®°í À§Ä¡¿¡ µû¸¥ ¿ÜºÎÀûÀÎ ¿äÀε鵵 À½¼º ÀνÄÀÇ ¼º´É¿¡ ¿µÇâÀ» ÁØ´Ù.

À̸¦ Á»´õ ¸íÈ®ÇÏ°Ô ±¸ºÐÇϱâ À§Çؼ­ [3]¿¡¼­ "¾î·Á¿òÀÇ ¹üÀ§ (Dimensions of Difficulty)" À̶ó°í ¾ð±ÞÇÑ ³»¿ëÀ» ¼Ò°³Çϵµ·Ï ÇÏ°Ú´Ù. ¿©±â¿¡¼­´Â À½¼º ÀνÄÀÇ ¼º°ø°ú ½ÇÆп¡ ¿µÇâÀ» ÁÙ ¼ö ÀÖ´Â ¿äÀο¡ ´ëÇØ ¼Ò°³ÇÏ°í Àִµ¥, ÀÌµé ¿äÀÎÀº ´ÙÀ½°ú °°´Ù.

  1. ½Ã½ºÅÛÀÌ Æ¯Á¤ °³ÀÎÀ̳ª ´Ù¾çÇÑ È­ÀÚ¸¦ ´ë»óÀ¸·Î Çϴ°¡?
  2. ÀνÄÇÏ°íÀÚ ÇÏ´Â ¾îÈÖÀÇ Å©±â´Â ¾ó¸¶Àΰ¡?
  3. ÀԷµǴ À½¼ºÀÌ ÈÞÁö±â°£¿¡ ÀÇÇØ ±¸º°µÇ´Â ÀÌ»êÇü ´ÜÀ§ (ÀϹÝÀûÀ¸·Î ´Ü¾î) Àΰ¡ ¶Ç´Â ¿¬¼ÓµÈ ¹ß¼ºÀΰ¡ (¿¬°á ¶Ç´Â ¿¬¼Ó À½¼º)?
  4. ¾îÈÖ¿¡¼­ÀÇ ¾Ö¸Å¼º (ambiguity) °ú À½ÇâÇÐÀû È¥µ¿¼± (acoustic confusability) ÀÌ Á¸ÀçÇϴ°¡?
  5. ½Ã½ºÅÛÀÌ Á¶¿ëÇÑ È¯°æ¿¡¼­ µ¿ÀÛÇϴ°¡? ¶Ç´Â ¼ÒÀ½ÀÌ Àִ ȯ°æ¿¡¼­ µ¿ÀÛÇϴ°¡? ¸¸¾à ¼ÒÀ½ÀÌ ÀÖ´Ù¸é ¼ÒÀ½Àº ¾î¶°ÇÑ ¼ºÁúÀ» °¡Áö´Â°¡?
  6. À½¼º¿¡ Æ÷ÇÔµÈ ¾ð¾îÀûÀÎ Á¦¾àÀº ¹«¾ùÀ̸ç, Àνı⿡ ¾î¶°ÇÑ Á¾·ùÀÇ ¾ð¾îÀû Áö½ÄÀÌ Æ÷Ç﵃ ¼ö Àִ°¡?

ÀÌµé ¿äÀÎ Áß, ´ëÇ¥ÀûÀÎ ¿äÀο¡ ´ëÇÏ¿© »ìÆ캸¸é ´ÙÀ½°ú °°´Ù.

°ÅÀÇ ´ëºÎºÐÀÇ À½¼º ÀÎ½Ä ½Ã½ºÅÛµéÀº ÀÌ·ÐÀûÀ¸·Î´Â ÇнÀ½ÃÅ°´Â ¸ðµå¿¡ µû¶ó È­ÀÚ Á¾¼Ó ¶Ç´Â È­ÀÚ µ¶¸³ ¸ðµå·Î µ¿ÀÛÇÒ ¼ö ÀÖ´Ù. È­ÀÚ Á¾¼Ó Àνıâ´Â À½¼º ÀÎ½Ä ½Ã½ºÅÛÀÇ ³»ºÎÀûÀÎ À½¼º ó¸® °úÁ¤ÀÇ ¸ðµ¨À» Ư¡Áþ´Â ¸Å°³º¯¼ö(¶Ç´Â ¸ðµ¨)¸¦ ÇнÀ½ÃÅ°´Âµ¥ ´ÜÀÏ È­ÀÚÀÇ À½¼ºÀ» ÀÌ¿ëÇÑ´Ù. µû¶ó¼­ ÀÌ·± À½¼º Àνıâ´Â ÈÆ·ÃÀÚÀÇ À½¼º¸¸ ÀνÄÇϴµ¥ »ç¿ëµÇ¸ç, ¿©·¯ È­ÀÚÀÇ À½¼ºÀ¸·Î ÈÆ·ÃÇÏ¿© ´Ù¾çÇÑ È­ÀÚÀÇ À½¼ºÀ» ÀνÄÇÏ´Â È­ÀÚ µ¶¸³Àνı⿡ ºñÇÏ¿© ÀÎ½Ä ¼º´ÉÀÌ ÁÁ´Ù. ÀÌó·³ È­ÀÚ µ¶¸³ ½Ã½ºÅÛÀÇ ¼º´ÉÀÌ Á¤È®ÇÏ´Ù ÇÏ´õ¶óµµ »õ·Î¿î È­ÀÚ¿¡ ´ëÇؼ­´Â ´Ù½Ã ÇнÀ½ÃÄÑ¾ß ÇÑ´Ù´Â ´ÜÁ¡ÀÌ Á¸ÀçÇÑ´Ù. µû¶ó¼­ È­ÀÚ Á¾¼Ó ¶Ç´Â µ¶¸³ ¸ðµåÀÇ Àνıâ´Â Á¤È®¼º°ú ÆíÀ̼º¿¡ ´ëÇÑ ±ÕÇüÀÌ µû¶ó¾ß ÇÑ´Ù.

¾îÈÖÀÇ Å©±â°¡ Áõ°¡ÇÔ¿¡ µû¶ó ÀνıâÀÇ ¼º´ÉÀ̳ª ÀÎ½Ä ¼Óµµ°¡ ÀúÇϵȴٴ °ÍÀº ½±°Ô ¾Ë ¼ö ÀÖ´Ù. °æÇè¿¡ µû¶ó ¾î¶² À½¼º ¿¬±¸ÀÚµéÀº ´Ü¾îÀÇ Áõ°¡»Ó¸¸ ¾Æ´Ï¶ó, ´ë¿ë·®ÀÇ ¾îÈÖ°¡ ÀǹÌÇÏ´Â ÀÎ½Ä ÀÛ¾÷ÀÇ Áõ°¡µÇ´Â º¹Àâµµ¿¡ À̸£±â±îÁö, ¾îÈÖÀÇ Å©±â¿¡ µû¶ó À½¼ºÀνÄÀÇ ¾î·Á¿òÀº ´ë¼öÀû (logarithmic) À¸·Î Áõ°¡ÇÑ´Ù°í º¸°í ÀÖ´Ù. Ç¥ 1¿¡¼­ º¸¿©Áö´Â ¹Ù¿Í °°ÀÌ ÀϹÝÀûÀ¸·Î À½¼º Àνıâ´Â ¾îÈÖÀÇ Å©±â¿¡ µû¶ó ¼Ò, Áß, ´ë ¾îÈÖ·Î ºÐ·ù°¡ µÈ´Ù. ¼Ò¿ë·® ¾îÈÖ ÀÎ½Ä ½Ã½ºÅÛÀº ÀÏ»óÀûÀ¸·Î Àû¿ëµÉ ¼ö ÀÖÀ¸¸ç, ±× »ç¿ëó´Â ½Å¿ëÄ«µå³ª ÀüÈ­¹øÈ£¿Í °°Àº ¼ýÀÚÀ½ Àνİú ¼±Àû ÀÛ¾÷ µîÀÇ ¸ñÀûÁö ÀÎ½Ä µî°ú °°Àº ºÐ¾ß¿¡¼­ »ç¿ëµÉ ¼ö ÀÖ´Ù. Áß°£ ¾îÈÖ ½Ã½ºÅÛÀº ÀÏ¹Ý ½ÇÇè½Ç¿¡¼­ ¿¬¼Ó À½¼º Àνİú °°ÀÌ ¿¬±¸¸¦ À§ÇÑ ½ÇÇèȯ°æ¿¡¼­ ¸¹ÀÌ »ç¿ëµÇ°í ÀÖ´Ù. ´ë¿ë·® ¾îÈÖ ½Ã½ºÅÛÀº °ü°ø¼­ÀÇ Åë½ÅÀ̳ª ¹®¼­ °Ë»ö µî°ú °°Àº ÀÀ¿ëºÎºÐÀ» ´ë»óÀ¸·Î »ó¾÷¿ë ½Ã½ºÅÛµéÀÌ ¸ñÇ¥·Î ¿¬±¸ÇÏ´Â ºÐ¾ßÀÌ´Ù.

Ç¥ 1 À½¼º ÀÎ½Ä ½Ã½ºÅÛÀÇ ´É·ÂÀ» ±¸ºÐÇÏ´Â º¯¼ö

º¯¼ö (Parameters)

±¸ºÐ, ¹üÀ§ (Range)

¹ß¼º ¸ðµå

°í¸³ ´Ü¾î, ¿¬¼Ó À½¼º

¹ß¼º ½ºÅ¸ÀÏ

³¶µ¶Ã¼, ÀÚ¿¬ À½¼º

µî·Ï

È­ÀÚ Á¾¼Ó, È­ÀÚ µ¶¸³

¾îÈÖ

¼Ò(1~99), Áß(100~999), ´ë( 1000)

¾ð¾î ¸ðµ¨

À¯ÇÑ »óÅ ³×Æ®¿öÅ©, ¹®¸Æ ÀÇÁ¸

´Ü¾î È¥Àâµµ

³·À½( <10), ³ôÀ½( >100)

SNR (½ÅÈ£ ´ë ÀâÀ½ºñ)

³ôÀ½( >30dB), ³·À½( <10dB)

¸Åü

¸¶ÀÌÅ©, ÀüÈ­

ÀϹÝÀûÀ¸·Î ¼Ò¿ë·® ¾îÈÖ ½Ã½ºÅÛÀ̳ª »ó´ëÀûÀ¸·Î Á¦ÇÑÀÌ °¡ÇØÁø ÀÛ¾÷ºÐ¾ß(¿¹¸¦ µé¸é ¼ýÀÚ¿­ÀÇ Àνİú °°Àº ºÐ¾ß)¿¡¼­´Â ±¸ºÐ ¹ß¼ºÀ̳ª ¿¬°á ´Ü¾î ÀÎ½Ä µîÀÇ ¾Ë°í¸®ÁòÀÌ Àû¿ëµÇ±âµµ ÇÑ´Ù. ÀÌ·¯ÇÑ °æ¿ì¿¡´Â ¾îÈÖÀÇ ´Ü¾î ¸ðµ¨ÀÌ ½Ã½ºÅÛ¿¡ ¸ðµÎ ÀûÀç (load) µÇ¾î °¢°¢ÀÇ ´Ü¾î¿¡ ´ëÇØ ¼Ó¼ÓµéÀÌ °Ë»öÇÏ¿© ÀνÄÇÒ ¼öµµ ÀÖ´Ù. ±×·¯³ª ¾îÈÖ°¡ Áõ°¡ÇÏ°Ô µÇ°í ÀÛ¾÷ÀÌ º¹ÀâÇØÁö¸é ´Ü¾î ¸ðµ¨¿¡ ´ëÇÑ ÇнÀÀ̳ª ¸ðµ¨ ÀúÀåÀÌ Èûµé °Ô µÇ¾î, ºÎ´Ü¾î ¸ðµ¨ ¹æ¹ý µîÀÌ Àû¿ëµÈ´Ù. ¶ÇÇÑ, ¸ðµç ´Ü¾î³ª ¸ðµ¨¿¡ ´ëÇÑ °Ë»öÀÌ ºÒ°¡´ÉÇØÁö±â ¶§¹®¿¡ ¾ð¾îÀûÀÎ Á¦¾à (linguistic constraints) µîÀ» ÀÌ¿ëÇÏ¿© Àǹ̰¡ ¾ø°Å³ª ¹®¹ýÀûÀ¸·Î Ʋ¸° ±¸¼ºµéÀ» ¹èÁ¦ÇÏ¿© °Ë»ö¿¡ ÇÊ¿äÇÑ ±â¾ï °ø°£ ¹× ½Ã°£À» Ãà¼Ò½ÃÅ°·Á´Â ³ë·ÂÀÌ ÁøÇàµÇ°í ÀÖ´Ù.

¹ß¼ºµÇ´Â À½¼ºÀ» ÀνÄÇÏ´Â ¹æ¹ý¿¡ µû¶ó °í¸³ ´Ü¾î ÀνÄ, ¿¬¼Ó À½¼º ÀνÄ, ¿¬°á ´Ü¾î ÀÎ½Ä µîÀ¸·Î ±¸ºÐµÈ´Ù. °í¸³ ´Ü¾î ÀνÄÀº ´Ü¾î¸¦ ±¸ºÐ ´Ü¾î¸¦ ¹ß¼ºÇÑ ÈÄ, À̸¦ ÇнÀ½ÃÄÑ ÀνĿ¡ »ç¿ëÇÏ´Â ¹æ¹ýÀÌ´Ù. ÀÌ ÀÎ½Ä ¹æ¹ý¿¡¼­´Â °¢ ´Ü¾î´Â ÃæºÐÇÑ ±æÀÌÀÇ ÈÞÁö ±â°£ (pause, silence) À» ÇÊ¿ä·Î Çϱ⠶§¹®¿¡ ÀÎ½Ä ½Ã½ºÅÛ¿¡ ÇùÁ¶ÀûÀÎ È­ÀÚ°¡ ÇÊ¿äÇÏ´Ù. ÈÞÁö ±â°£¿¡ ÀÇÇÏ¿© °¢ ´Ü¾îÀÇ °æ°è°¡ ±¸ºÐÀÌ µÇ±â ¶§¹®¿¡ ÆÄ¿­À½ÀÇ °£°ÝÀ̳ª ³·Àº ¸¶ÂûÀ½¿¡ ÀÇÇÑ È¥µ·À» ¹Ì¸® ¹æÁöÇÒ ¼ö ÀÖ¾î, ¸î¸î ´Ü¾î¿¡ ÀÇÇÏ¿© ¸í·ÉÀÌ ¼öÇàµÇ´Â ÀÀ¿ëºÐ¾ß¿¡ »ç¿ëµÉ ¼ö ÀÖÀ¸¸ç, °¢ ´Ü¾î´Â ³¡Á¡ Ç¥½Ã (endpoint marking) µî°ú °°Àº ¹æ¹ý¿¡ µû¶ó °æ°è°¡ Ç¥½ÃµÈ´Ù. ´ÙÀ½À¸·Î ¿¬¼Ó À½¼º ÀνÄÀº »ç¿ëÀÚ°¡ »ó´ëÀûÀ¸·Î ÀÚ¿¬½º·´°Ô ¹ß¼ºÇÑ À½¼ºÀ» ÀνÄÇÏ´Â ¹æ¹ýÀÌ´Ù. ÀÌ ¹æ¹ý¿¡¼­´Â È­ÀÚ°¡ °¢ ´Ü¾î¸¦ ¿¬¼ÓÀûÀ¸·Î ¹ß¼ºÇϱ⠶§¹®¿¡ ´Ü¾îÀÇ °æ°è°¡ ¶Ñ·ÇÇÏÁö ¾Ê°í ´Ü¾î°£ÀÇ Á¶À½ Çö»ó µîÀÌ ¹ß»ýÇÑ´Ù. ´ÙÀ½À¸·Î ¿¬°á ´Ü¾î ÀÎ½Ä ¹æ¹ýÀÌ ÀÖ´Ù. ¿¬¼Ó À½¼º ÀνÄÀÇ °æ¿ì ´ë¿ë·® ¾îÈÖ ½Ã½ºÅÛÀ» ¸»ÇÏ°í, ¼Ò¿ë·® ¾îÈÖ ½Ã½ºÅÛ¿¡¼­ÀÇ ¿¬¼Ó À½¼º ÀνÄÀ» ÀϹÝÀûÀ¸·Î ¿¬°á ´Ü¾î ÀνÄÀ̶ó°í ÇÑ´Ù. ´ë¿ë·®ÀÇ °æ¿ì ¾îÈÖÀÇ ¾çÀÌ Å©±â ¶§¹®¿¡ ºÎ´Ü¾î ¸ðµ¨µé·Î ±¸¼ºÀÌ µÇ¸ç, °¢ ´Ü¾î°£ÀÇ °ü°è¸¦ ¼³Á¤ÇÏ´Â ¹æ¹ý¿¡ µû¶ó ¼º´ÉÀÇ Â÷À̸¦ °¡Á®¿Â´Ù. ±×·¯³ª ¼Ò¿ë·® ¾îÈÖ ½Ã½ºÅÛÀÎ °æ¿ì, ºÎ´Ü¾î ¸ðµ¨À» »ç¿ëÇÏÁö ¾Ê°í ¹Ù·Î ´Ü¾î ¸ðµ¨À» »ç¿ëÇÒ ¼ö Àֱ⠶§¹®¿¡ ´Ü¾î ³»ºÎÀÇ Á¶À½ Çö»óÀ» ½±°Ô ¸ðµ¨¸µÇÒ ¼ö ÀÖ´Ù.

¾îÈÖ¿¡¼­ÀÇ À¯»ç¼ºÀº ÀÎ½Ä ½Ã½ºÅÛÀÇ ¼º´É¿¡ Á÷Á¢ÀûÀÎ ¿µÇâÀ» ¹ÌÄ£´Ù. ÀϹÝÀûÀ¸·Î ¾îÈÖ¿¡¼­ÀÇ À¯»ç¼ºÀº ¾Ö¸Å¼º°ú È¥µ¿¼ºÀ¸·Î ±¸º°µÈ´Ù. À½ÇâÇÐÀûÀÎ ¾Ö¸Å¼ºÀº "know"¿Í "no", "two"¾Æ "too", ¶Ç´Â "to"µî°ú °°ÀÌ ºñ½ÁÇÑ À½ÇâÀûÀΠƯ¼ºÀ» º¸ÀÌ´Â °ÍÀ» ¸»Çϸç, È¥µ¿¼ºÀº "bee", "see", "pea" µî°ú °°ÀÌ ´Ü¾îÀÇ ºÎºÐÀû À¯»ç¼ºÀ¸·Î ÀÎÇÑ È¥µ¿À» ¸»ÇÑ´Ù. ƯÈ÷ ¿Ü±¹Àο¡ ÀÇÇÑ ¹ßÀ½ÀÇ °æ¿ì ¾Ö¸Å¼º°ú È¥µ¿¼ºÀÌ ´õ¿í ÁõÆøÀÌ µÈ´Ù. ÀϹÝÀûÀ¸·Î À½ÇâÇÐÀûÀÎ ¾Ö¸Å¼ºÀº À½ÇâÇÐÀû ´Ü°è¿¡¼­´Â ±¸º°ÀÌ ¾î·Æ±â ¶§¹®¿¡ ³ôÀº ´Ü°è (Áï, ¾ð¾îÀû ´Ü°è³ª ¿îÀ²Àû ´Ü°è µî) ¿¡¼­ 󸮰¡ µÇ¾î¾ß Çϸç, À½ÇâÇÐÀû È¥µ·¼ºÀº À½Çâ ´Ü°è¿¡¼­ ¾î´À Á¤µµÀÇ ÇØ°áÃ¥ÀÌ ÀÖÀ¸³ª, Á» ´õ ³ºÀº ¼º´ÉÀ» À§Çؼ­´Â ³ôÀº ´Ü°è¿¡¼­ÀÇ Ã³¸®°¡ ¿ä±¸µÈ´Ù.

À§¿¡¼­ ¼³¸íÇÑ À½¼ºÀνÄÀÇ ¾î·Á¿ò ÀÌ¿Ü¿¡µµ ½ÅÈ£¿Í °ü·ÃµÈ ¸¹Àº º¯ÀÌ·Î ÀÎÇÏ¿© À½¼º ÀνÄÀÌ ¾î·Æ°Ô µÈ´Ù. ¸ÕÀú, °¢ ´Ü¾îÀÇ ±¸¼ºµÇ´Â ÃÖ¼Ò ´ÜÀ§ÀÎ À½¼ÒÀÇ À½ÇâÇÐÀûÀΠǥÇöÀº Ç¥ÇöµÇ´Â ¹®¸Æ¿¡ ¸Å¿ì Á¾¼ÓÀûÀÌ´Ù. À̵é À½¼ºÀÇ º¯ÀÌ (phonetic variability) ´Â ¿µ¾î¿¡¼­ÀÇ two, true, butter¿¡¼­ÀÇ /t/ ¹ßÀ½°ú °°ÀÌ À½¼ÒÀÇ Â÷À̷μ­ ¿¹½ÃÈ­µÉ ¼ö ÀÖ´Ù. ¶ÇÇÑ, ´Ü¾îÀÇ °æ°è¿¡¼­ ¹®¸ÆÀÇ º¯ÀÌ´Â ´õ¿í ½ÉÇÏ°Ô ¹ß»ýÇϴµ¥, ¿¹¸¦ µé¸é ¿ì¸®¸»¿¡¼­ÀÇ "¸ÀÀÖ´Ù"°¡ "¸¶½Ãµû" ¶Ç´Â "¸¶µðµû" ó·³ ¹ß¼ºµÇ´Â °æ¿ìÀÌ´Ù. µÑ°·Î, Àü´ÞÀÚ (transducer) ÀÇ À§Ä¡³ª Ư¼º¿¡ µû¸¥ À½ÇâÇÐÀûÀÎ º¯ÀÌ (acoustic variability) ·Î ÀÎÇØ ¹ß»ýµÇ´Â ¹®Á¦ÀÌ´Ù. ¼¼ ¹ø°´Â È­ÀÚÀÇ ¹°¸®Àû ¶Ç´Â °¨Á¤ÀûÀÎ »óÅ¿¡ µû¶ó, ¹ß¼º ¼Óµµ (speaking rate) ³ª À½ÁúÀÇ º¯È­·Î ÀÎÇØ ¾ß±âµÇ´Â È­ÀÚ³»ºÎ º¯ÀÌ (within-speaker variability) °¡ ÀÖ´Ù. ¸¶Áö¸·À¸·Î, »çȸ ¾ð¾îÇÐÀûÀÎ Â÷ÀÌ¿¡¼­ ¹ß¼ºÇÏ´Â È­ÀÚ°£ º¯ÀÌ(across-speaker variability)¸¦ µé ¼ö Àִµ¥, ´ëÇ¥ÀûÀÎ Çö»óÀ¸·Î´Â ¼ºµµ (vocal tract) ÀÇ Å©±â³ª ¸ð¾çÀÇ Â÷À̸¦ µé ¼ö ÀÖ´Ù.

 

±×¸² 1 À½¼º ÀÎ½Ä ½Ã½ºÅÛÀÇ ±¸¼º ¿ä¼Ò

À§ÀÇ ±×¸² 1Àº ÀüÇüÀûÀÎ À½¼º ÀÎ½Ä ½Ã½ºÅÛÀÇ ÁÖµÈ ±¸¼º ¿ä¼Ò¸¦ º¸¿©ÁÖ°í ÀÖ´Ù. ¾çÀÚÈ­µÈ À½¼º ½ÅÈ£´Â ºÐ¼®À» À§ÇØ ÀϹÝÀûÀ¸·Î 10~20msÀÇ °íÁ¤µÈ ½Ã°£ ±æÀÌ·Î ºÐÇҵǰí Ư¡ º¯¼ö·Î º¯È¯µÈ´Ù. À̵é ÃøÁ¤Ä¡´Â À½ÇâÇÐÀû, »çÀüÀû, ¾ð¾î ¸ðµ¨¿¡ ÀÇÇØ Á¦ÇÑÀûÀ¸·Î ÀÌ¿ëµÇ¾î, °¡Àå À¯»çÇÑ ´Ü¾î È常¦ ã´Âµ¥ »ç¿ëµÈ´Ù. ÀÌ·¯ÇÑ °úÁ¤À» ÅëÇÏ¿© ÇнÀ µ¥ÀÌÅÍ´Â ¸ðµ¨ º¯¼öµéÀÇ °ªÀ» °áÁ¤Çϴµ¥ »ç¿ëµÈ´Ù.

À½¼º ÀÎ½Ä ½Ã½ºÅÛÀº À§¿¡¼­ ¿©·¯ °¡Áö ¹æ¹ýÀ¸·Î ±â¼úµÈ º¯ÀÌ ¿øÀÎÀ» ¸ðµ¨¸µÇÑ´Ù. ½ÅÈ£ Ç¥ÇöÀÇ ´Ü°è¿¡¼­´Â Áö°¢ÀûÀ¸·Î ½ÅÈ£ÀÇ È­ÀÚ µ¶¸³ÀûÀΠƯ¡À» °­Á¶ÇÏ°í, È­ÀÚ Á¾¼ÓÀûÀΠƯ¡À» °¨¼ÒÇÏ°íÀÚ ÇÑ´Ù. ´ÙÀ½À¸·Î, À½ÇâÇÐÀûÀÎ À½¼Ò ´Ü°è¿¡¼­´Â ´ë¿ë·®ÀÇ µ¥ÀÌÅÍ¿¡ ´ëÇØ Åë°èÀû ±â¹ýÀ» ÀÌ¿ëÇÏ¿© È­ÀÚÀÇ º¯À̸¦ ¸ðµ¨¸µÇÑ´Ù.

´Ü¾î ´ÜÀ§ÀÇ º¯ÀÌ´Â ¹ßÀ½ ³×Æ®¿öÅ©(pronunciation network)ÀÇ Ç¥Çö¹ýÀ» ÀÌ¿ëÇÏ¿© ´Ù¾çÇÑ ´Ü¾î ¹ßÀ½À» Çã¿ëÇÔÀ¸·Î½á ó¸®µÉ ¼ö ÀÖ´Ù. ÀϹÝÀûÀ¸·Î ¹æ¾ð(dialect)À̳ª °­¼¼(accent)ÀÇ Â÷ÀÌ·Î ÀÎÇÑ ´Ü¾îÀÇ ´Ù¸¥ ¹ßÀ½Àº °Ë»ö ¾Ë°í¸®ÁòÀÌ ¹ßÀ½ ³×Æ®¿öÅ©¸¦ ÅëÇÏ¿© À½¼ÒÀÇ ´Ù¸¥ °æ·Î¸¦ Çã¿ëÇϵµ·Ï ÇÔÀ¸·Î½á ó¸®µÉ ¼ö ÀÖ´Ù. ¶ÇÇÑ, ´Ü¾î¿­ÀÇ ¹ß»ýºóµµ¸¦ ¿¹ÃøÇÏ´Â Åë°èÀûÀÎ ¾ð¾î ¸ðµ¨À» ÀÌ¿ëÇÏ¿© °¡´ÉÇÑ ´Ü¾î¿­À» °Ë»öÇÒ ¼ö ÀÖ´Ù.

°ú°Å 15³â µ¿¾È À½¼º ÀνĿ¡ °¡Àå ¸¹ÀÌ »ç¿ëµÇ´Â ¾Ë°í¸®ÁòÀº Àº´Ð ¸¶ÄÚÇÁ ¸ðµ¨(hidden Markov model)À̾ú´Ù. HMMÀº ÀÌÁß Åë°èÀû ¸ðµ¨·Î¼­, ±âº»ÀÌ µÇ´Â À½¼Ò¿­ÀÇ »ý¼º°ú ÇÁ·¹ÀÓ ´ÜÀ§ÀÇ Ç¥¸éÀû À½ÇâÇÐÀûÀΠǥÇöÀ» Markov °úÁ¤°ú °°ÀÌ È®·ü·Î¼­ ³ªÅ¸³½´Ù. ÇÁ·¹ÀÓ ´ÜÀ§ÀÇ Á¡¼ö¸¦ ¿¹ÃøÇϴµ¥ ½Å°æ ȸ·Î¸Á(Neural network)ÀÌ »ç¿ëµÇ±âµµ Çϸç, HMM ½Ã½ºÅÛ°ú °áÇյǾî È¥ÇÕ ¸ðµ¨·Î¼­ »ç¿ëµÇ±âµµ ÇÑ´Ù.

ÇÁ·¹ÀÓ ´ÜÀ§ÀÇ HMM ½Ã½ºÅÛÀÇ Áß¿äÇÑ Æ¯Â¡Àº À½¼º ºÎºÐÀÌ ¸í½ÃÀûÀ¸·Î ÆľǵǴ °ÍÀÌ ¾Æ´Ï¶ó, °Ë»ö °úÁ¤ Áß¿¡ Æľǵȴٴ Á¡ÀÌ´Ù. ¶ÇÇÑ ¸ÕÀú À½¼º ºÎºÐÀ» ÆľÇÇÏ¿© ºÐ·ùÇÏ°í ´Ü¾î¸¦ ÀνÄÇϱâ À§ÇÏ¿© ºÎºÐ °Å¸®°ªÀ» ÀÌ¿ëÇÏ´Â ´Ù¸¥ Á¢±Ù ¹æ¹ýµµ ÀÖ´Ù. ÀÌ·¯ÇÑ Á¢±Ù ¹æ¹ýÀº ¿©·¯ °¡Áö ÀÛ¾÷ ºÐ¾ß¿¡¼­ °æÀïÀûÀÎ ÀÎ½Ä ¼º´ÉÀ» ³ªÅ¸³»±âµµ ÇÑ´Ù. 

2. À½¼º ÀνÄÀÇ ÇöȲ

À½¼º ÀνÄÀÇ ¿ª»ç

À½¼º ÀνĿ¡ ´ëÇÑ ¿¬±¸´Â Áö³­ 40¿©³â µ¿¾È È°¹ßÈ÷ ÁøÇàµÇ¾î ¿ÔÀ¸¸ç, ±â¼úÀÇ ¹ßÀüÀ¸·Î ÀÎÇÏ¿© ±× ¹ßÀü¼Óµµ´Â º¸´Ù °¡¼ÓÈ­µÇ°í ÀÖ´Ù. º» Àý¿¡¼­´Â °ú°ÅºÎÅÍ ÇöÀç¿¡ À̸£´Â À½¼º ÀνÄÀÇ ´Ù¾çÇÑ ¹ßÀü°úÁ¤À» °íÂûÇغ¸°íÀÚ ÇÑ´Ù.

¸ÕÀú À½¼º ÀÎ½Ä ½Ã½ºÅÛÀ» °í¾ÈÇÏ°íÀÚ ÇÏ´Â ½Ãµµ´Â 1950³â´ë¿¡ óÀ½À¸·Î ½ÃÀ۵Ǿú´Ù. ±âº»ÀûÀÎ À½ÇâÇÐÀ̳ª À½¼ºÇп¡ ´ëÇÑ ¿¬±¸¸¦ ½ÃÀÛÀ¸·Î 1952³â¿¡ Bell ¿¬±¸¼ÒÀÇ Davis¿Í Biddulph, Balashek ¿¡ ÀÇÇÏ¿© ´ÜÀÏ È­ÀÚ¿¡ ÀÇÇÑ °í¸³ ¼ýÀÚ ÀνıⰡ ±¸ÇöµÇ¾ú´Ù. ÀÌ ½Ã½ºÅÛÀº °¢°¢ÀÇ ¼ýÀÚÀ½¿¡ ´ëÇÑ ¸ðÀ½ ¿µ¿ªÀÇ ½ºÆåÆ®·³ °øÁø (spectral resonance) ÀÇ ÃøÁ¤¿¡ ¹ÙÅÁÀ» µÎ°í ÀÖ´Ù. 1956³â¿¡´Â RCA ¿¬±¸¼Ò¿¡¼­ Olson °ú Bela °¡ °¢°¢ µ¶¸³ÀûÀÎ ¿¬±¸¸¦ ÅëÇؼ­ 10°³ÀÇ ´ÜÀ½Àý ´Ü¾î¸¦ Æ÷ÇÔÇÏ´Â ´ÜÀÏ È­ÀÚ¿¡ ÀÇÇØ ¹ß¼ºµÈ 10À½Àý ´Ü¾î¸¦ ÀνÄÇÏ¿´´Ù. ÀÌ ¿¬±¸µµ ¸ðÀ½ ¿µ¿ª¿¡¼­ÀÇ ÇÊÅ͹ðÅ©¿¡ ÀÇÇØ Á¦°øµÇ´Â ½ºÆåÆ®·³À» ÃøÁ¤ÇÏ¿© ¸ðÀ½À» ÀνÄÇÏ¿´´Ù. 1959³â¿¡´Â ¿µ±¹ÀÇ College ´ëÇÐÀÇ Fry ¿Í Denes ´Â ³× °³ÀÇ ¸ðÀ½°ú ¾ÆÈ© °³ÀÇ ÀÚÀ½À» ÀνÄÇÏ´Â À½¼Ò Àνı⸦ ±¸ÃàÇÏ·Á°í ½ÃµµÇÏ¿´´Ù. À̵éÀº ÀÎ½Ä °áÁ¤À» Çϱâ À§ÇÏ¿© ½ºÆåÆ®·³ ºÐ¼®±â¿Í ÆÐÅÏ Á¤Çձ⸦ »ç¿ëÇÏ¿´´Ù. ÀÌ ¿¬±¸ÀÇ ÁÖµÈ ¼º°ú´Â µÎ °³ ÀÌ»óÀÇ À½¼Ò·Î ±¸¼ºµÈ ´Ü¾î¿¡ ´ëÇÑ À½¼ÒÀÇ Á¤È®µµ¸¦ ³ôÀ̱â À§ÇÏ¿© ¿µ¾î¿¡¼­ÀÇ °¡´ÉÇÑ À½¼Ò¿­¿¡ ´ëÇÑ Åë°èÀû Á¤º¸¸¦ »ç¿ëÇÏ¿´´Ù´Âµ¥ ÀÖ´Ù. ÀÌ ±â°£ µ¿¾ÈÀÇ ¸ðÀ½ ÀνĿ¡ ´ëÇÑ ¶Ç ´Ù¸¥ ¿¬±¸´Â 1959³â¿¡ MIT Lincoln ¿¬±¸¼ÒÀÇ J.W. Forgie ¿Í C.D. Forgie ¿¡ ÀÇÇØ ÀÌ·ç¾îÁ³´Ù. ÀÌ ¿¬±¸´Â È­ÀÚ µ¶¸³¹æ½ÄÀ¸·Î /b/-¸ðÀ½-/t/ÀÇ ÇüÅÂÀÇ 10°³ ¸ðÀ½¿¡ ´ëÇØ ¿¬±¸¸¦ ÇÏ¿´À¸¸ç, ÇÊÅ͹ðÅ© ºÐ¼®±â (filterbank analyzer) ¸¦ ÀÌ¿ëÇÏ¿© ½ºÆåÆ®·³ Á¤º¸¸¦ ã¾Æ³»°í, ¾î¶² ¸ðÀ½ÀÌ ¹ß¼ºµÇ¾ú´ÂÁö¸¦ ÆÇ´ÜÇϱâ À§Çؼ­ ½Ã°£¿¡ µû¶ó º¯ÇÏ´Â ¼ºµµÀÇ °øÁø(vocal tract resonance)À» ÀÌ¿ëÇÏ¿´´Ù.

1960³â´ë µé¾î¿Í¼­´Â, À½¼º ÀνĿ¡ ´ëÇÑ ±âº»ÀûÀÎ »ý°¢ÀÌ Ç¥¸éÈ­µÇ°í ¹ßÇ¥µÇ¾ú´Ù. ±×·¯³ª, 10¿©³âÀÇ ¿¬±¸¸¦ ÁøÇàÁßÀÎ ¸î¸îÀÇ ÀϺ» ¿¬±¸¼Ò¿¡¼­´Â ±×µé ½Ã½ºÅÛÀÇ ÀÏȯÀ¸·Î Ư¼ö ¸ñÀûÀÇ Çϵå¿þ¾î¸¦ ±¸ÃàÇϱ⵵ ÇÏ¿´´Ù. ÃʱâÀÇ ÀϺ» ½Ã½ºÅÛ ÁßÀÇ Çϳª´Â Radio ¿¬±¸ ½ÇÇè½ÇÀÇ Suzuki¿Í Nakada ¿¡ ÀÇÇØ ¾ð±ÞµÈ Çϵå¿þ¾î ¸ðÀ½ ÀνıâÀÌ´Ù. ¿©±â¿¡¼­´Â °¢ ä³ÎÀÇ ½ºÆåÆ®·³ ºÐ¼®±âÀÇ Ãâ·ÂÀ» ¸ðÀ½ °áÁ¤ ȸ·Î¿Í ¿¬°á½ÃŲ ·ÎÁ÷°ú ¿¬°èÇÑ Á¤±³ÇÑ ÇÊÅ͹ðÅ© ºÐ¼®±â¸¦ »ç¿ëÇÏ¿´À¸¸ç, Áß¿ä °áÁ¤ ·ÎÁ÷Àº ¹ßÀ½µÈ ¸ðÀ½À» °áÁ¤Çϴµ¥ »ç¿ëµÇ¾ú´Ù. ¶Ç ´Ù¸¥ ÀϺ»¿¡¼­ÀÇ Çϵå¿þ¾î ÀÎ½Ä ½Ã½ºÅÛÀº 1962³â¿¡ Kyoto ´ëÇÐÀÇ Saka ¿Í Doshita °¡ ±¸ÇöÇÑ À½¼Ò ÀνıâÀÌ´Ù. ÀÌ ½Ã½ºÅÛ¿¡¼­´Â ÀÔ·ÂµÈ À½¼ºÀÇ ¼­·Î ´Ù¸¥ ¿µ¿ª¿¡ ´ëÇÑ ¿µ±³Â÷À² ºÐ¼®±â (zero crossing analyzer) ¿Í Çϵå¿þ¾î À½¼º ºÐÇÒ±â (speech segmentor) ¸¦ ÀÌ¿ëÇÏ¿© ÀÎ½Ä °á°ú¸¦ ¾ò¾ú´Ù. ¼¼ ¹ø°ÀÇ ÀϺ»ÀÇ ¿¬±¸´Â 1963³â¿¡ NEC ¿¬±¸¼ÒÀÇ Nagat ¿Í ±× µ¿·áµé¿¡ ÀÇÇÏ¿© ¸¸µé¾îÁø ¼ýÀÚ ÀÎ½Ä ÀåÄ¡ÀÌ´Ù. ÀÌ ¿¬±¸´Â NEC ¿¡¼­ÀÇ À½¼º ÀνĿ¡¼­ÀÇ ÁÖ¸ñÇÒ ¸¸ÇÑ ÃʱâÀÇ ½ÃµµÀ̸ç, »ý»êÀûÀÎ ÀÎ½Ä ¹®Á¦¸¦ À̲ø¾î °¡´Â °ßÀÎÂ÷°¡ µÇ¾ú´Ù.

1960³â´ë¿¡´Â Áö³­ 20³âµ¿¾ÈÀÇ À½¼º ÀÎ½Ä ¿¬±¸¿Í °³¹ß¿¡ À־ÀÇ °­ÇÑ ÀλóÀ» ³²±ä ¼¼°¡Áö ÇÁ·ÎÁ§Æ®°¡ ÀÖ´Ù. ù ¹ø° ÇÁ·ÎÁ§Æ®´Â 1960³â´ë ¸»¿¡ ½ÃÀÛµÈ RCA ¿¬±¸¼ÒÀÇ Martin °ú ±×ÀÇ µ¿·áµé¿¡ ÀÇÇØ ½ÃÀÛµÈ °ÍÀ¸·Î¼­, À½¼º Çö»ó¿¡¼­ÀÇ ½Ã°£Ãà »óÀÇ ºñ±ÕÀϼº°ú °ü·ÃµÈ ÇØ°áÃ¥À» Á¦½ÃÇÑ °ÍÀÌ´Ù. Martin Àº À½¼ºÀÇ ½ÃÀÛ°ú ³¡À» °ËÃâÇϴµ¥ À־ ½Ã°£ Á¤±ÔÈ­ ¹æ¹ýÀ» »ç¿ëÇÏ¿© ÀÎ½Ä Á¡¼öÀÇ º¯À̸¦ ÁÙ¿´´Ù. ¶ÇÇÑ, Martin Àº ±Ã±ØÀûÀ¸·Î ±× ¹æ¹ýÀ» °³¹ßÇÏ¿© Threshold Technology ¶ó´Â ȸ»ç¸¦ ¼³¸³ÇÏ¿© À½¼º ÀÎ½Ä »óÇ°À» ÆǸÅÇÏ¿´´Ù. °ÅÀÇ ºñ½ÁÇÑ ½Ã±â¿¡ ¼Òºñ¿¡Æ® ¿¬¹æÀÇ Vintsyuk ´Â À½¼º ¹ß¼º¿¡ ´ëÇØ ½Ã°£ Á¶Á¤ÇÏ´Â µ¿Àû ÇÁ·Î±×·¥ ¹æ¹ýÀ» Á¦¾ÈÇÏ¿´´Ù. ÀÌ ¹æ¹ýÀº µ¿Àû ½Ã°£ Á¤ÇÕ ¿Ü¿¡µµ ¿¬°á ´Ü¾î ÀνĿ¡ ´ëÇÑ ±âº»ÀûÀÎ ³»¿ëÀ» Æ÷ÇÔÇÏ°í ÀÖ¾úÀ¸³ª 1980³â´ë±îÁö ¼­¹æ ¼¼°è¿¡´Â ¾Ë·ÁÁöÁö ¾Ê°í ÀÖ´Ù°¡, ´Ù¸¥ ¿¬±¸Àڵ鿡 ÀÇÇØ Á¤ÇüÀûÀÎ ¹æ¹ýÀ¸·Î Á¦¾ÈµÇ°í ±¸ÇöÀÌ µÇ¾ú´Ù.

1960³â´ë¿¡¼­ÀÇ ¸¶Áö¸· ¼º°ú´Â À½¼Ò µ¿Àû ÃßÀû (dynamic tracking of phonemes) ¿¡ ÀÇÇÑ ¿¬¼Ó À½¼º ÀÎ½Ä ºÐ¾ß¿¡¼­ÀÇ Reddy ÀÇ ¿¬±¸ÀÌ´Ù. Reddy´Â CMU¿¡¼­ ¼º°øÀûÀÎ ¿¬¼Ó À½¼º ÀνÄÀ» À̲ø¾î ³ª°¡¸ç, Àü¼¼°è¿¡¼­ ÁÖµµÀûÀÎ ¿ªÇÒÀ» ÇÏ¿´´Ù.

1970³â´ëÀÇ À½¼ºÀÎ½Ä ¿¬±¸´Â ÁÖ¸ñÇÒ ¸¸ÇÑ ÀÌÁ¤Ç¥¸¦ ³²°å´Ù. ¸ÕÀú ·¯½Ã¾ÆÀÇ Velichko¿Í Zagoruyko¿Í ÀϺ»ÀÇ Sakoe¿Í Chiba, ¹Ì±¹ÀÇ Itakura¿¡ ÀÇÇÑ ±âº» ¿¬±¸¿¡ ¹ÙÅÁÀ» µÐ °í¸³ ´Ü¾î ÀνÄÀ̳ª ÀÌ»ê ¹ß¼ºÀÇ ÀνÄÀº Á¡Â÷ °¡´ÉÇØÁö°í ÀÌ¿ë °¡´ÉÇØ Á³´Ù. ·¯½Ã¾Æ »ç¶÷µéÀÇ ¿¬±¸´Â À½¼º ÀνĿ¡¼­ÀÇ ÆÐÅÏ ÀνÄÀÇ ¹æ½ÄÀ» »ç¿ëÇÒ ¼ö ÀÖ°Ô ÇÏ¿´À¸¸ç, ÀϺ»ÀÇ ¿¬±¸´Â µ¿Àû ÇÁ·Î±×·¥ÀÌ ¾î¶»°Ô Àß Àû¿ëµÉ ¼ö Àִ°¡¸¦ º¸¿©ÁÖ¾ú´Ù. ¶ÇÇÑ, ItakuraÀÇ ¿¬±¸´Â À̶§±îÁö ÁÖ·Î Àú Àü¼Û À½¼º ÄÚµù(low-bit-rate speech coding)¿¡ »ç¿ëµÇ¾ú´ø ¼±Çü ¿¹Ãø ÄÚµù (LPC) À» À½¼º ÀνÄÀ¸·Î È®ÀåÇÏ¿© LPC ½ºÆåÆ®·³ º¯¼öµé¿¡ ±â¹ÝÇÑ ÀûÀýÇÑ °Å¸® ÃøÁ¤ ¹ýÀ» »ç¿ëÇÒ ¼ö ÀÖ°Ô ÇÏ¿´´Ù.

1970³â´ëÀÇ ¶Ç ´Ù¸¥ ÀÌÁ¤Ç¥´Â IBM ¿¡¼­ Áö³­ 20¿©³â µ¿¾È ¼¼ °¡Áö ÀÛ¾÷ºÐ¾ß¿¡ ´ëÇؼ­ Áö¼ÓÀûÀ¸·Î ¿¬±¸ÇØ¿Â ºÐ¾ß·Î¼­ ¼º°øÀûÀÎ ¿¬±¸ÀÇ ºÐ·ù¿¡ ¼ÓÇÑ´Ù. ÀÌµé ¿¬±¸´Â °£´ÜÇÑ µ¥ÀÌÅÍ º£À̽º ÁúÀÇ¿¡ ´ëÇÑ New Raleigh ¾ð¾î¿Í, laser ƯÇã¿¡ °üÇÑ laser ƯÇã ÅؽºÆ® ¾ð¾î, °£´ÜÇÑ ¸Þ¸ð¸¦ ¹Þ¾Æ Àû´Â »ç¹«½ÇÀÇ ¹®¼­ ÀÛ¾÷¿¡ °üÇÑ TangoraÀÌ´Ù.

¸¶Áö¸·À¸·Î, AT&TÀÇ Bell ½ÇÇè½Ç¿¡¼­´Â ¿¬±¸ÀÚµéÀÌ È­ÀÚ µ¶¸³ÀÇ À½¼º ÀÎ½Ä ½Ã½ºÅÛÀ» ¸¸µå´Â °ÍÀ» ¸ñÇ¥·Î ½ÇÇèÀ» ½ÃÀÛÇÏ¿´´Ù. ÀÌ ¸ñÀûÀ» ´Þ¼ºÇϱâ À§ÇÏ¿© ¹æ´ëÇÑ »ç¿ëÀÚ Ãþ¿¡ °ÉÃÄ ÀÖ´Â ¼­·Î ´Ù¸¥ ´Ü¾îµéÀÇ º¯À̸¦ Ç¥ÇöÇϴµ¥ ÇÊ¿äÇÑ ´Ù¾çÇÑ ÆÐÅϵéÀ» °áÁ¤Çϴµ¥ Á¤±³ÇÑ ±ºÁýÈ­ ¾Ë°í¸®Áò (clustering algorithm) À» »ç¿ëÇÏ¿´´Ù. ÀÌ ¿¬±¸´Â È­ÀÚ µ¶¸³ ÆÐÅϵéÀ» »ý¼ºÇϱâ À§ÇÑ ±â¼úÀÌ ³Î¸® ÀÌÇØµÇ°í »ç¿ëµÇ¸é¼­ Á»´õ ¼¼ºÐÈ­µÇ¾ú´Ù.

1970³â´ë¿¡¼­´Â À½¼º ÀνĿ¡¼­ÀÇ ÁÖµÈ °ü½É»ç°¡ °í¸³ ´Ü¾î ÀνÄÀ̾úÁö¸¸, 1980³â´ë¿¡ µé¾î¿Í¼­´Â ¿¬°á ´Ü¾î ÀνÄÀÌ ÁÖµÈ ¿¬±¸ºÐ¾ß°¡ µÇ¾ú´Ù. À̶§ÀÇ ¸ñÇ¥´Â °³º°ÀûÀÎ ´Ü¾îµé·Î ±¸¼ºµÈ °áÇÕµÈ ÆÐÅÏ Á¤ÇÕ¿¡ ±â¹ÝÇÑ ¹æ¹ýÀ» »ç¿ëÇÏ¿© ÀÚ¿¬½º·´°Ô ¹ß¼ºµÈ ´Ü¾î¿­µéÀ» Àß ÀνÄÇÏ´Â ÀÎ½Ä ½Ã½ºÅÛÀ» ±¸ÇöÇÏ´Â °ÍÀÌ´Ù. ÀÌ ½Ã±âÀÇ ¿¬°á ´Ü¾î ÀÎ½Ä ¾Ë°í¸®ÁòµéÀº NEC ¿¬±¸¼ÒÀÇ Sakoe°¡ ¹ßÇ¥ÇÑ 2´Ü°è µ¿Àû ÇÁ·Î±×·¥ ¹æ½Ä°ú ¿µ±¹ÀÇ Joint speech Research Unit ÀÇ Bridle °ú Brown ÀÇ 1´Ü°è ¹æ¹ý, Bell ¿¬±¸¼ÒÀÇ Myers ¿Í Rabiner °¡ Á¦¾ÈÇÑ level building ¹æ½Ä, ±×¸®°í °°Àº ¿¬±¸¼ÒÀÇ Lee ¿Í Rabiner °¡ Á¦¾ÈÇÑ ÇÁ·¹ÀÓ µ¿±â (frame synchronous) level building Á¢±Ù ¹æ½Ä µîÀÌ ÀÖ´Ù. ÀÌµé °¢°¢ÀÇ ÃÖÀûÀÇ Á¤ÇÕ ¾Ë°í¸®ÁòµéÀº °¢°¢ÀÇ Àå. ´ÜÁ¡À» °¡Áö°í ÀÖÀ¸¸ç ¿©·¯ ºÐ¾ß¿¡¼­ »ç¿ëÇÏ°í ÀÖ´Ù.

1980³â´ëÀÇ À½¼º ÀνÄÀÇ È帧Àº ÅÛÇø´ (template) ¹æ½ÄÀÇ Á¢±Ù ¹æ½Ä¿¡¼­ Àº´Ð ¸¶ÄÚÇÁ ¸ðµ¨ (hidden Markov model, HMM) °ú °°Àº Åë°èÀû ¹æ¹ýÀ¸·Î ±â¼úÀÇ º¯È­¸¦ °¡Á®¿Ô´Ù. HMM ÀÇ ÀÌ·ÐÀÌ IBM À̳ª IDA (Institute for Defense Analysis), Dragon ½Ã½ºÅÛ°ú °°Àº ¸î¸î ¿¬±¸¼Ò¿¡´Â Àß ¾Ë·ÁÁö°í, ÀÌÇصǾúÀ¸³ª 80³â´ë Á߹ݱîÁö´Â HMM ÀÇ ¹æ¹ýÀ̳ª À̷п¡ ´ëÇÑ ³í¹®ÀÌ ¹ßÇ¥µÇÁö ¾Ê¾Æ ³Î¸® »ç¿ëµÇÁö ¾Ê¾Ò´Ù. ±×·¯³ª, ¿äÁòÀº °ÅÀÇ ¸ðµç À½¼º ÀÎ½Ä ½Ã½ºÅÛ¿¡¼­ HMM À» äÅÃÇÏ°í ÀÖ´Ù.

1980³â´ë ÈĹݿ¡ À½¼º ÀνĿ¡ Àû¿ëµÈ ¶Ç ÇϳªÀÇ ½Å ±â¼úÀº ½Å°æ ȸ·Î¸Á(neural network)ÀÌ´Ù. ½Å°æ ȸ·Î¸ÁÀº 1950³â´ë¿¡ ¼Ò°³µÇ¾úÀ¸³ª ½ÇÁ¦·Î Àû¿ëÇϴµ¥ Ç®Áö ¸øÇÏ´Â ¹®Á¦Á¡ÀÌ ÀÖ¾î ³Î¸® »ç¿ëµÇÁö ¸øÇÏ¿´´Ù. ±×·¯³ª 1980³â´ë¿¡ µé¾î¿Í¼­ ½Å°æ ȸ·Î¸Á¿¡ ´ëÇÑ ±íÀº ÀÌÇØ¿Í Á¦¾àÁ¶°Ç¿¡ ´ëÇÑ ±íÀº ¿¬±¸¸¦ ¹ÙÅÁÀ¸·Î ÀüÅëÀûÀÎ ½ÅÈ£ ºÐ·ù¹æ¹ý µî¿¡ »ç¿ëµÇ°Ô µÇ¾úÀ¸¸ç, »õ·Î¿î ½Ã½ºÅÛµéÀÌ Á¦¾ÈµÇ¸ç ±¸ÇöµÇ±â ½ÃÀÛÇÏ¿´´Ù.

1980³â´ë´Â DARPA(Defense Advanced Research Projects Agency)¿¡ ÀÇÇØ 1000´Ü¾îÀÇ ¿¬¼Ó À½¼º Àνİú µ¥ÀÌÅͺ£À̽º °ü¸® ÀÛ¾÷¿¡ ´ëÇÑ ³ôÀº ´Ü¾î ÀνķüÀÇ ÀÎ½Ä ÇÁ·Î±×·¥ÀÌ Áö¿øµÇ¸é¼­ ´ë¾îÈÖÀÇ ¿¬¼Ó À½¼º ÀνÄÀÇ Àü±â¸¦ ¸Â´Â ½Ã±â¿´´Ù. ÀÌ ½Ã±â¿¡´Â CMUÀÇ SPHINX ½Ã½ºÅÛ°ú BBNÀÇ BYBLOS ½Ã½ºÅÛ, Lincoln ¿¬±¸¼Ò, SRI, MIT, AT&T Bell ¿¬±¸¼Ò µî¿¡¼­ ¸¹Àº ¿¬±¸ °á°úµéÀÌ ¹ßÇ¥µÇ¾ú´Ù. 1990³â´ë¿¡µµ DARPA ÇÁ·Î±×·¥Àº °è¼Ó µÇ¾úÀ¸¸ç, ÀÚ¿¬¾î Àü 󸮱â¿Í Ç×°ø ¿îÇà Á¤º¸(air travel information)ÀÇ °Ë»ö¿¡ ´ëÇØ °­Á¶ÇÏ°í ÀÖ´Ù. ºñ½ÁÇÑ ½Ã±â¿¡ À½¼º ÀÎ½Ä ±â¼úÀº ÀüÈ­¸Á¿¡¼­ÀÇ ÀÚµ¿È­¿Í ±³È¯ ¼­ºñ½º¸¦ °­È­Çϱâ À§ÇÏ¿© »ç¿ëµÇ±â ½ÃÀÛÇÏ¿´´Ù.