스페이스 오딧세이, 스타트렉(Star Trek), 그리고 음성 인식 기술
닐 암스트롱이 달에 착륙하기 4년 전 스탠리 큐브릭 감독은 2001 스페이스 오딧세이를 찍기 시작했다. 다른 SF영화에서 비춘 미래의 모습보다는 과학적인 현실에 훨씬 근접한 영화로 평가받는 [2001 스페이스 오딧세이]가 자극한 여러가지 과학적 공상중의 백미는 역시 인공지능 컴퓨터 할(Hal)이다. 빌 게이츠는 차세대 컴퓨터 핵심은 멀티터치라고 하지만, 진짜 차세대 컴퓨팅 환경의 핵심은 말하는 컴퓨터가 아닐까 싶다.

스페이스 오딧세이가 나온지 40년, 사람과 대결할 수 있을만큼 지능을 갖춘 컴퓨터 할(Hal)의 음성인식 수준까지는 아닐지라도, 스피치 인식 기술에서 얻어진 성과는 주목할만하다. 뉴요커에서 언급한 스피치 인식 기술의 현재를 그대로 옮겨본다.
Today, you can use your voice to buy airplane tickets, transfer money, and get a prescription filled. If you don’t want to type, you can use one of the current crop of dictation programs to transcribe your speech; these have been improving steadily and now work reasonably well. If you are driving a car with an onboard navigator, you can get directions in one of dozens of different voices, according to your preference. In a car equipped with Sync—a collaboration of Ford, Microsoft, and Nuance, the largest speech-technology company in the world—you can use your voice to place a phone call or to control your iPod, both of which are useful when you are in what’s known in the speech-recognition industry as “hands-busy, eyes-busy” situations. State-of-the-art I.V.R.s, such as Google’s voice-based 411 service, offer natural-language understanding—you can speak almost as you would to a human operator, as opposed to having to choose from a set menu of options. I.V.R. designers create vocal personas like Julie, the perky voice that answers Amtrak’s 800 number; these voices can be “tuned” according to a company’s branding needs. Calling Virgin Mobile gets you a sassy-voiced young woman, who sounds as if she’s got her feet up on her desk. [Hello, Hal]
음성 인식 기술에서 얻어진 이런 눈부신 성과에도 불구하고, 우리가 궁극적으로 얻어낼 음성 인식 기술은 영화 2001 스페이스 오딧세이에서 상상한 할(Hal)보다는 스타트렉(Star Trek)에서 보여준 인간의 말을 그대로 받아적는 휴대용 컴퓨터가 아닐까 싶다. 미국에서는 이미 1971년 국방부에서 카네기멜론, 스탠포트, IBM등에 음성인식 컴퓨터 개발을 위한 용역을 줬을만큼 이 분야에 오랫동안 투자를 해왔다. 인지심리학, 음성학, 언어학, 발성학, 컴퓨터 사이언스, 기계공학등 수많은 분야의 학문들이 결합해야만 성과를 얻을 수 있는 음성인식 기술이라는 이 미래의 기술은 현재 우리 생활에 얼마나 가까이 다가와 있을까? 우리가 손쉽게 구해 쓸 수 있는 컴퓨터 소프트웨어의 수준을 살펴보는 것보다 현재의 기술 수준을 가늠하는데 더 좋은 척도는 없을 것 같다.

데이브 포그가 리뷰한 스피치 인식 소프트웨어 Dragon NaturallySpeaking 버전 10의 성능이 참 놀랍다. 시험삼아 Freakonomics에서 1000자를 읽어본 결과 99.3%의 정확도로 읽은 내용을 타이핑 했다는 것이다. 특히 고무적인 것은 Ku Klux Klan 같은 고유명사를 타이핑하는데 아무 문제가 없었으며 ‘ ‘edition’을 ‘addition’이란 단어로 잘못 표기하는 경우는 있었어도 철자의 에러에 해당하는 타이포(typos)는 없었다고 한다.
As a quick test, I read aloud the first 1,000 words of “Freakonomics” into Microsoft Word. Impressively enough, NatSpeak effortlessly transcribed words like “Ku Klux Klan” and “Punic war.” It did, however, mistype seven easier words (“addition” instead of “edition,” for example, and “per trail” instead of “portrayal”). Accuracy tally with no training: 99.3 percent. Not too shabby. [State of the Art Speak Up, a Computer Is Listening ]
케네디 연설에서 1000자를 골라 테스트한 결과 역시 99.5%의 정확성을 보여줬으며, [“Select gas prices.” - “Italicize that.” - "Go to end of document.”]와 같은 자연어 명령1 도 알아듣는다고 한다.
NaturallySpeaking 버전 10은 현재 8가지 유형의 영어 엑센트를 인식한다고 한다:
Version 10 recognizes eight accents: general (none), Australian, British, Indian, Great Lakes (Buffalo to Chicago), Southeast Asian, Southern United States and Spanish.
NaturallySpeaking 10이 남부 엑센트를 인식할 수는 있겠지만, 인식하기 매우 까다롭다는 한국인들의 영어 발음을 인식할 수 있을 지는 의문이다. 한국인이 발음하는 river라든지 wal-mart 등을 미국인들이 잘 알아듣지 못하는 일이 비일비재한 것을 생각하면 한국인이 읽는 영어 문장의 정확도는 떨어질 게 분명하다.
불행하게도 이 뛰어난 스피치 인식 소프트웨어는 윈도우즈용이다. 부트캠프를 통해 윈도우즈를 부팅하는 맥에서는 물론 설치할 수 있다. 매킨토시에 관해 해박한 데이브 포그는 물론 맥용 스피치 인식 소프트웨어인 MacSpeech Dictate를 언급하지만, 성능은 드래곤 네추럴리스피킹 10에 딸린다고 평한다.
이미 90% 이상 성공확률을 만들어내는 음성인식 기술에 우리가 도전할 구석은 전혀 없는 것일까? 과학자들이 제시하는 미래의 음성 인식 기술은 바로 인간의 ‘감정’을 이해하는 인식이다. 그렇다면 우리가 궁극적으로 얻을 미래의 기술은 스타트렉이 아니라, 스페이스 오딧세이의 한 장면에서 영감을 받아야 하는게 아닐까? 우주선을 통제하기 위해 우주인들과 고투를 벌이면서 할은 우주인 데이브에게 이렇게 말한다.
“I can tell from your voice harmonics, Dave, that you’re badly upset. Why don’t you take a stress pill and get some rest?”
스탠리 큐브릭 감독의 앞날을 내다보는 혜안에 다시 한 번 경이와 찬사를 보내는 바이다.
- $100달러짜리 standard edition이 아닌 $200짜리 프로페셔널 에디션에서만 가능 [↩]
몇 년전 테스트를 해본건데, xDSL 떄문에, AT&T에 문의 전화를 하면 영어 또는 히스패닉 버젼의 음성인식 메뉴가 있는데 인식률이 떨어지는 것 같아요. 그래서 본토 친구들에게 한번 음성인식을 테스트 해보라고 전화를 넘겨주니, 30초 후, 그 친구의 한 마디가 생각 나는 군요.
친구 1: Shit~
친구 2: Shit, too~
요즘은 어떤지 모르겠네요.
미리 정해진 명령어나, 끊어지는 단어에 대해서는 상당한 발전을 이뤘나 보군요. 하지만 진짜 사람말을 그대로 받아적으려면 컴퓨터가 지능을 가지는 수준 정도까지 도달해야 할겁니다. 말이라는게 귀로만 듣는건 아니니까요.
그래도 말로써 무언가를 컨트롤할수 있는데는 유용한 수준까지 도달한것 같네요. 사실 무언가를 컨트롤하는 가장 자연스러운 방법은 말로 명령하는 것일테니까요.
호모사피엔스/ 자연어 명령을 인식하는 기술 개발에서 아직도 해결할 일이 많은 것 같습니다.
피노키오/ 컴퓨터로 응답하는 경우, 인식률을 높이기 위해 보통 몇개의 키워드를 예로 들려주곤 합니다. 저는 이럴 때마다 짖궂게 그런 키워드를 풀어서 대답하곤 하는데, 인식을 잘 못하는 경향이 있습니다.