Speech  Recognition

 

인간과 기계가 음성으로 대화한다는 것은 인류의 꿈으로, 오래 전부터 연구되어 온 주제이다. 음성 (Speech) 으로 기계와 대화할 때의 장점은,  첫째로 숙련을 요하지 않는다. 인간에게 가장 손쉬운 입력수단이기 때문에, 자판에 입력하는 경우와 같은 훈련을 요하지 않는다. 두 번째로 고속입력이 가능하다. 자판으로 입력하는 것에 비해 2~6 배의 속도로 입력할 수 있다. 셋째로 손발이 구속되지 않는다. 손이 다른 일을 하고 있어도 자유로이 입력할 수 있다. 또한 걸어가면서 입력할 수도 있다.

definition   term   history     lab    site    book   demo   paper

음성 인식 (Speech Recognition) 은 컴퓨터가 음향학적 신호 (acoustic speech signal) 를 텍스트로 mapping 시키는 과정이다. 즉 일반적으로 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 인식된 결과는 명령이나 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있으며, 음성이해와 같은 분야에는 언어 처리과정의 입력으로 사용될 수 있다.

반대로 음성합성 (Speech Systhesis) 프로그램은 문서를 입력하여 (written input) 자동적으로 생성되는 합성 음성으로 변환하여 출력하는(spoken output) 것이다. 그래서 음성합성은 가끔 "Text-to-Speech" conversion (TTS) 로 불리워진다.

음성이해 (Speech Understanding) 는 컴퓨터가 음향 음성 신호(acoustic speech signal)를 듣고서 음성의 의미 (abstract meaning) 로 mapping 시키는 과정이다. 단지 한마디 한마디를 정확히 인식하는 것만이 아니라, 발음되는 문장 전체의 의미를 이해하려는 시도를 음성이해라 부른다.

음성 인식은 일반적으로 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 인식된 결과는 명령이나 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있으며, 음성 이해와 같은 분야에는 언어 처리과정의 입력으로 사용될 수 있다. 그 결과 음성인식기술은 인간과 컴퓨터 간의 자연스러운 의사소통을 가능케 하며 인간에게 보다 밀착시킴으로써 인간의 생활을 보다 풍요롭게 만드는데 필수적인 최첨단 기술이다. 음성인식은 크게 사용자에 따라 화자종속방식 (Speaker Dependent System), 화자독립방식 (Speaker Independent System), 화자적응방식 (Speaker Adaptive System) 으로 분류되고, 발음방식에 따라 고립단어인식, 핵심어 인식, 연결단어인식, 연속음성인식, 대화음성인식으로 나뉘고, 인식대상 어휘수에 따라 소용량, 중용량, 대용량 인식기술로 분류된다. 단어단위로 인식 하는 단어인식기술, 음소단위로 인식하는 가변어 인식기술로 나눌 있다. 음성인식기술은 음성명령 컴퓨터는 물론 무인전화번호 안내, 음성명령 주문형 비디오, 각종 음성안내 시스템, 가전제품을 비롯해 자동차 항법장치 (Car Navigation System), 홈오토메이션, 음성다이얼링 이용영역이 무한하다.

그 동안 공상과학 영화에서나 볼 수 있었던 음성인식 기술개발이 최근 활발해지고 있다..... 앞으로 음성인식 관련 기술이 이동통신 기기는 물론 TV·냉장고를 비롯한 가정용 전자제품과 로봇 등에도 접목하면 우리들이 살아가는 일상생활에 혁명적인 변화를 몰고 올 것으로 전망하고 있다.....

video :

딥 러닝 기반의 음성인식 기술 : SKtechx Tacademy : 2017/06/18 ... 딥 러닝 (Deep Learning)

 

(전문가 토크 릴레이) 언어와 음성인식 및 자동통역 기술 동향 : 솔트룩스 : ETRI 언어처리연구실 김영길 박사, 2015/11/11