본문 바로가기

NEWS

음성인식 가능한 챗GPT 출시

반응형

AI 콜센터가 한 걸음 가까워졌다. 영화 '아이언맨'의 AI 비서 '자비스'가 현실화되고 있는 셈이다. 2일, 오픈AI는 음성-텍스트 변환 모델인 '위스퍼'(Whisper) API를 공개했다. 이전에 공개한 위스퍼는 웹에서 수집한 68만 시간의 다국어 및 멀티태크스 데이터로 학습한 자동 음성인식(ASR) 시스템이다. 위스퍼는 음성을 다양한 언어로 옮기거나, 이를 영어로 번역해준다. 분당 0.006달러로, 다양한 파일 형식을 지원한다. 이번에 공개된 API는 최적화된 스택으로 다른 서비스 대비 빠른 서비스를 제공한다.

하지만 미국 IT 매체 테크크런치는 위스퍼가 모든 언어에 대해 동일한 성능을 발휘하지 못하며, 데이터가 부족한 언어의 경우 오류율이 높다는 한계가 있다고 지적하였다. 이는 아마존, 애플, 구글, IBM, 마이크로소프트의 음성인식 시스템도 흑인보다 백인 사용자에게 훨씬 적은 오류를 보인다는 것과 유사한 현상이다.

 

또한, OpenAI가 챗GPT API 'GPT-3.5 Turbo'를 출시했다. 이 API는 기존의 챗GPT와 동일한 초거대 인공지능 모델인 'GPT-3.5'을 사용하지만, 비용은 기존보다 10분의 1로 저렴하여 1000토큰당 0.002달러다.

 

이에 따라 AI 콜센터의 확산이 예상된다. 이미 글로벌 전자상거래 기업인 쇼피파이는 자사의 쇼핑 어시스턴트 서비스에 챗GPT를 적용했다. 이 서비스는 '따뜻한 우드 찾아줘'라는 입력에 맞는 상품을 추천해주는데, 앞으로는 문자가 아닌 간단한 대화로도 가능해질 전망이다.

 

또한 영어 회화 앱인 Speak도 위스퍼 API를 적용한 교육 서비스를 출시했다. 이 서비스는 예를 들어 햄버거 가게에서 영어로 주문하면 AI가 이를 인식하고 적절한 답변을 제공한다. OpenAI는 "스픽은 한국에서 가장 빠르게 성장하는 영어 앱"이라며, "위스퍼는 모든 레벨의 언어 학습자에게 인간 수준의 정확도를 제공하며, 개방형 대화 연습과 정확한 피드백을 제공한다"라고 설명했다.

반응형