블로그
Speak for Business

스픽이 AI로 언어 학습을 초개인화하는 방법 [OpenAI 대담]

OpenAI와 Speak 창업자 코너 즈윅 인터뷰

Speak의 투자사이자 기술 협력 파트너인 OpenAI가 Speak의 CEO이자 공동 창업자인 코너 즈윅(Connor Zwick)과 인터뷰를 진행했습니다. (원문 링크)

Speak 블로그에서도 인터뷰를 전문으로 소개드립니다.

이번 인터뷰에서는 AI 기술이 언어 학습의 방식을 어떻게 바꾸고 있는지, 가장 자연스러운 Speak AI 튜터를 가능하게 만들었던 기술적 돌파구는 무엇이었는지, 그리고 급변하는 기술 환경 속에서 AI 스타트업을 확장해 나가는 여정은 어떠한지 등을 읽어보실 수 있습니다.

AI의 현재와 미래, 언어 교육 시장, 스타트업 창업 등 다양한 분야에 대한 깊이 있는 인사이트를 얻어보세요!

AI 덕분에, 단 몇 시간 만에 당대 최고의 언어 모델을 만들 수 있었죠.

코너 즈윅 ‘스픽’ 창업자 겸 최고경영자(CEO)

AI와의 첫 진지한 만남은 언제였고, 그것이 Speak에 어떤 영향을 주었나요?

지난 10년이 넘는 시간을 돌아보면, AI에 대한 제 관점을 완전히 바꿔놓았던 순간들이 여러 번 있었습니다.

가장 먼저 떠오르는 건 2012년의 AlexNet 논문입니다. 딥 뉴럴 네트워크를 활용한 이미지 인식이 그야말로 굉장했죠. 그리고 AlphaGo도 엄청난 순간이었고요.

하지만 제 개인적인 AI와의 직접적인 연결은 2015년이었습니다. 그때 공동 창업자와 함께 독립적으로 AI 연구를 하며, 논문을 읽고 직접 구현하는 데 시간을 쏟고 있었어요. 사이드 프로젝트로 유튜브 데이터를 대량으로 긁어와 실험을 진행했습니다.

데이터를 모델에 넣었을 때 큰 기대는 없었는데, 처음 학습을 시키고 몇 시간 후 결과를 확인해보니 당시 최고 수준의 억양 감지 모델보다 더 정확한 모델을 만들어 놓았더라고요. 사람이 어떤 억양으로 말하고 있는지를 분류하는 정확도가 뛰어났죠.

그때 우리는 딥러닝이 정말 엄청난 가능성을 갖고 있다는 걸 실감했습니다. 충분한 데이터만 있다면 놀라운 성과를 낼 수 있고, 많은 경우 기존의 최고 기술을 완전히 압도할 수 있다는 걸 깨달았죠.

언어 학습 앱에 AI를 도입할 때, 학습자에게 자연스럽게 느껴지도록 설계한 방법은 무엇이었나요?

우리의 핵심 질문은 딥러닝을 언어 학습 경험에 어떻게 자연스럽게 녹일 것인가였습니다. Speak 초기 몇 년은 뛰어난 '말하기 중심 경험'을 만드는 데 집중했죠.

이 문제는 사실 너무나 명확했어요. 우리가 등장하기 전까지 대부분의 언어 학습 앱은 진짜로 말하게 하는 기능이 거의 없거나, 있어도 억양이 있는 발화를 완벽하게 이해하지 못했거든요.

당시 음성 인식 모델들은 억양 있는 말을 거의 정확히 인식하지 못했습니다. 우리는 당시 주요 모델들보다도 성능이 뛰어난 음성 인식 기술을 빠르게 만들 수 있었고, 이걸 기본적인 제품 경험에 넣는 것만으로 완전히 판도를 뒤바꾸는 사용자 경험을 제공할 수 있었죠.

AI가 빠르게 진화하는 환경에서, 제품 로드맵은 어떻게 계획하나요?

모두가 듣고 싶어하는 대답은 아닐 수 있지만, AI 기반 제품을 리드하려면, 기술과 모델 작동 원리에 대한 깊은 기술적 직관이 꼭 필요합니다. 그런 이해가 없다면, 어떤 문제가 한 달 안에 해결 가능하고 어떤 문제가 12개월 이상 걸릴지를 판단할 수 없어요.

하지만 그런 직관이 있다면 미래를 위한 제품을 설계할 수 있죠. 예를 들어 지금은 비용적으로 무리인 기능도 1년 후엔 단가가 떨어질 것을 예상하고 미리 구축합니다. 또는 현재 모델의 약점을 감안해 설계하되, 시간이 지나면 성능이 향상될 것을 기대하고 설계하기도 하죠.

정확도 90%, 98%, 99%, 99.9%의 차이를 이해하고, 그 차이가 제품 경험에 어떤 영향을 주는지를 정확히 아는 것도 정말 중요합니다. 90%와 99.9%는 완전히 다른 수준의 사용자 경험이거든요. 그리고 그러한 정확도 곡선이 언제 급등할지를 예측하는 능력은, 제품에 관해 좋은 결정을 내리는 데 필요한 핵심 역량입니다.

AI 에이전트는 언어 학습 분야에서도 큰 변화를 만들 것입니다.

Speak의 가능성에 대한 관점을 바꾼 AI 기술 돌파구가 있었다면 무엇인가요?

이건 단연 OpenAI의 실시간 API와 오디오 멀티모달 기능입니다.

우리는 유창한 말하기 능력을 돕는 슈퍼휴먼 AI 튜터를 만들고 있기 때문에, 학습자가 단순히 무슨 단어를 말했는지만 아는 게 아니라, 무엇을 말하려 했는지, 발음과 억양, 의도까지 정확히 이해하는 것이 핵심입니다.

이제는 학습자의 말투를 이해하고, 그에 맞춰 열린 피드백을 자연스럽고 실시간으로 제공하는 것이 가능해졌습니다. AI 튜터링의 궁극적인 목표에 다가가고 있다고 할 수 있어요.

Speak과 관련 없어 보여도 개인적으로 기대하는 AI 발전 분야가 있나요?

많은 사람들이 추론(reasoning) 능력을 AI의 다음 프론티어라고 말하는데, 저도 전적으로 동의합니다.

탁월한 인간 교사는 학생의 진도를 보고 학습 계획을 짜고, 진척을 분석하며 유연하게 조정하죠. AI 에이전트가 이런 수준의 추론 능력을 갖게 되면 언어 학습 분야에서도 진짜 큰 변화가 일어날 거라고 봐요.

겉보기에 우리 분야와 직접 연결되진 않아 보이지만, AI 튜터가 최고의 인간 교사처럼 작동할 수 있게 해줄 열쇠가 될 거라고 생각합니다.

AI 시대에 인간 언어 교사의 역할은 어떻게 변화할까요?

지구상에는 영어와 다른 언어를 배우고 싶어 하는 사람은 수십억 명에 달합니다. 하지만 뛰어난 교사는 턱없이 부족하죠. 그래서 많은 사람들이 책이나 온라인 영상을 이용하지만, 그건 실제 대화와는 다릅니다.

결국 사람들이 언어를 배우는 이유는 다른 사람들과 연결되기 위해서지, AI와 대화하려는 건 아닙니다. AI가 아무리 발전해도, 실제 인간과의 연습은 언제나 필요할 겁니다.

‘AI가 인간 교사를 대체할 수 있는가’가 중요한 게 아닙니다. 언어 학습을 더 나은 방식으로 전 지구 상의 더 많은 사람에게 제공하자는 것입니다.

AI는 ‘빈 캔버스’입니다. 호기심을 갖고 최대한 써보는 것이 중요합니다.

Speak 팀 내부에서는 AI 사용을 어떻게 독려하고 있나요?

가장 중요한 건 우선 알맞은 사람을 모았는가입니다. 우리가 가장 중요하게 여기는 건 ‘호기심’이에요.

우리는 스스로 동기부여 할 줄 알고, AI를 통해 자신의 임팩트를 확장하고 싶어하는 사람들을 원합니다.

ChatGPT처럼 AI는 ‘빈 캔버스’ 문제를 갖고 있어요. 활용할 수 있음에도, 어떻게 써야 할지를 모르는 경우가 많죠. AI는 놀라울 만큼 다재다능하므로, 우리는 팀원들에게 항상 이렇게 묻도록 장려합니다.

‘이 작업, AI로 해볼 수 없을까?’ 그리고 실제로 해보게 합니다.

모든 것이 더 좋아질 수 있겠지만, 지금은 현재 가능한 기술로 최고의 제품을 만드는 것이 중요하다고 생각해요. 마치 오렌지에서 최대한 주스를 짜내는 것처럼 말이죠.

AI를 제대로 적용하는 데는 여전히 기술적 과제가 많고, 우리는 이를 ‘ML 스캐폴딩’(머신러닝 기반 구조물)이라고 부릅니다. 즉, 제품 전체 경험을 떠받치는 기술적 토대죠.

우리는 이걸 꽤 오랫동안 다뤄왔기에 어느 정도 앞서 있지만, 여전히 갈 길이 멉니다. AI 발전이 오늘 당장 멈춘다고 해도, 우리는 앞으로 수년간 정말 재미있는 일들을 해나갈 수 있을 겁니다.

이 모델들은 특히 언어, 사람과의 상호작용, 언어 사용에 강합니다. 다른 산업에서는 아직 더 많은 돌파구가 필요할지도 모르지만, 우리 언어 교육 분야에서는 필요한 거의 모든 것이 이미 준비되어 있다고 봅니다.

Speak은 어떻게 OpenAI 모델을 활용하고 있나요?

Speak는 OpenAI의 언어 모델을 기반으로, 음성 및 텍스트 기반 학습 커리큘럼을 제공합니다.

이를 통해 대화형 말하기 연습, 개인 맞춤형 튜터링, 그리고 진짜 유창한 말하기를 돕는 몰입형 AI 학습 환경을 구현하고 있습니다.

앞으로 언어 학습에 가장 큰 영향을 줄 AI 트렌드는 무엇일까요?

모든 것이 더 좋아질 수 있겠지만, 지금은 현재 가능한 기술로 최고의 제품을 만드는 것이 중요하다고 생각해요. 마치 오렌지에서 최대한 주스를 짜내는 것처럼 말이죠.

AI를 제대로 적용하는 데는 여전히 기술적 과제가 많고, 우리는 이를 ‘ML 스캐폴딩’(머신러닝 기반 구조물)이라고 부릅니다. 즉, 제품 전체 경험을 떠받치는 기술적 토대죠.

우리는 이걸 꽤 오랫동안 다뤄왔기에 어느 정도 앞서 있지만, 여전히 갈 길이 멉니다. AI 발전이 오늘 당장 멈춘다고 해도, 우리는 앞으로 수년간 정말 재미있는 일들을 해나갈 수 있을 겁니다.

이 모델들은 특히 언어, 사람과의 상호작용, 언어 사용에 강합니다. 다른 산업에서는 아직 더 많은 돌파구가 필요할지도 모르지만, 우리 언어 교육 분야에서는 필요한 거의 모든 것이 이미 준비되어 있다고 봅니다.

400+ 기업이 선택한 스픽이 궁금하다면

임직원의 글로벌 역량 향상, 스픽이 함께합니다.
Speak for Business 더 알아보기

Share on: