Linguistics

 

현대언어학 과 인공지능 (Artificial Intelligence) 는 아마 비슷한 시기에 태어났고 함께 성장했으며, 두 분야를 합쳐서 전산언어학 (Computational Linguistics) 이나 자연어처리 (Natural Language Processing) 이라 부른다. 자연어를 이해하는 문제는 1957 년에 생각했던 것보다 상당히 더 복잡하다는 것으로 판명되었다. 언어 (Language) 를 이해 (Understanding) 한다는 것은 문장의 구조를 이해하는 것 뿐만아니라 내용 (subject matter) 과 문맥 (Context) 에 대한 이해를 필요로 한다. 이것은 분명한 것이었지만 1960 연대까지는 널리 이해되지 못했었다. 지식표현 (Knowledge Representation) (어떻게하면 지식을 컴퓨터가 추론 (Reasoning) 할 수 있는 형태로 입력할 것인지를 연구) 의 많은 초기 작업이 언어 (language) 와 결합되었고 언어학의 연구로부터 정보를 얻었으며, 이어서 언어의 철학적 분석에 대한 수십년에 걸친 작업으로 연결되었다.

.... 1957 년에 B. F. Skinner 는 Verbal Behavior 를 출간했다. 이것은 최고의 전문가가 쓴, 언어 학습 (Learning) 에 대한 행동주의적 접근을 종합적이고 자세하게 설명한 것이었다. 그러나 기묘하게도 그 책의 review 판이 그 책 만큼이나 유명하게 되었고, 행동주의를 절멸시키는 (kill off) 역할을 한다. 그 review 의 저자는 스스로의 이론을 정리하여 변형-생성문법의 이론 (Syntactic Structures) 를 출간한 Noam Chomsky 였다. Chomsky 는 행동주의 이론이 언어에 있어서의 창의성 (Creativity) 의 개념을 얼마나 전달하지 못하는지를 보여주었다. 즉 행동주의 (Behaviorism) 는 어떻게 어린이들이 전에 들어본 적이 없는 문장을 이해하고 생성하는지를 설명하지 못했다. Chomsky 의 이론은 [인도의 언어학자 Panini (기원전 350 년) 로 되돌아 가는 문법 모델 (syntactic model) 에 기초한 것으로서] 이것을 설명할 수 있고, 이전의 이론과는 달리 그것은 원칙적으로 프로그램될 수 있을만큼 충분히 형식적 (formal) 이었다. ........ (Stuart Russell 2003)

definition    term   site

20 세기에 들어 사람들은 의사 소통의 영역을 넓히기 시작했다. 즉 컴퓨터 (Computer) 라는 새로운 도구를 만듦으로써, 사람과 사람 사이의 의사 소통에 이어 사람과 기계 사이의 의사 소통이 가능하게 되었다. 그러나 아직까지 이러한 의사 소통은 매우 제약적이다. 그것은 컴퓨터와 사람의 의사 소통을 보장하는 언어가 아직 제한적일 뿐 아니라, 사람이 구사하는 언어와 질적으로 다르기 때문이다. 자연어처리 (Natural Language Processing) 란 이러한 문제를 극복하기 위한 언어학적, 전산학적 접근이다.

언어학자는 사람이 어떤 특정 언어를 통달했다고 할 때, 그가 알고 있는 말에 대한 지식이 무엇인가를 추구하고 이를 명세화하려고 한다. 언어에 대한 지식을 충분히 명세화 할 수 있다면, 사람은 자신의 존재에 대해 좀더 명확한 깨달음을 갖게 될 것이다. 또한 이러한 명세화가 기계의 논리, 더 구체적으로는 튜링 기계 (Turing Machine) 의 연산논리 안에서 충분히 구현된다면 사람과 기계의 자유로운 의사 소통의 영역은 훨씬 넓어질 수 있을 것이다.

언어는 그 언어를 생성하는 최대로 제한되는 문법의 정도에 따라 4 가지 종류를 갖는다. 이는 촘스키 계층 (Chomsky Hierarchy) 이라고 하는, 제한된 문법의 형태 (따라서 각 문법에 의하여 생성되는 언어도 제한됨)를 정의하는 한 가지 방법이다. 전산학에서의 계산복잡도 이론 (Computational Complexity Theory) 으로 분류하였을 때, 현재까지의 연구에 의하면 정규 문법은  의 난이도를 가지며, 문맥자유 문법 (Context Free Grammar) 의 난이도를 가진다. 이것은 컴퓨터에 의해 해결 가능한 Polinomial 문제에 속한다. 반면에 문맥인식 문법 (Context Sensitive Grammar) 이나 무제한 문법은 컴퓨터에 의한 처리가 불가능한 NP (non-deterministic polinomial) 문제에 속하는 것으로 증명되었다..