본문 바로가기

테크 field 에서 보고 느낀 것들/사업과 서비스에 대한 다양하고 넓은 관심

[AI] AI 스타트업에 재직했을 때, AI PM 이 일반 PM 보다 신경써야할 지점은? (1)

AI, AI, AI 에 뜨거운 관심

글에 시작하기에 앞서, 나는 AI 스타트업에 재직한 경험이 있다. 꽤 기술집약적인 도메인으로 딥테크 기반 기업인데, 요즘 오픈소스 끌어다 쓰는 수준은 아니였다. 내재된 리서처와 음성 데이터 수집을 위해 직접 사람들의 음성을 스튜디오에서 녹음하기도 했던 곳이다. (월급이 밀려 오래 못다녔지만, 입사하면서 준비한 것들을 내려써본다. ) AI는 당시 2022년에는 생소한 기술이라 주목을 받았지만, 이제는 성능과 품질을 논하는 stage 로 AI 는 발전했다. 시장에 나온 AI 서비스로 다들 AI 음성 인식, 검색은 경험을 해봤기 때문에 훨씬 높은 수준의 다양한 고객 니즈를 맞춰야한다. 
 
나는 음성합성 기술쪽이였기 때문에 언어모델 (LLM) AI Agent 를 수강하다가 문득, 새로운 기술을 써서 서비스를 만들어야한다면 어떻게 접근하면 좋을까, 어떤 리서치가 필요할까 싶었다. 
 

일반 서비스 기획과 차별화되는 가장 큰 차이점 : 기술 한계 파악

일반 서비스 기획과 달리 Technical requirements 의 심층적인 이해가 필요한데, 나는 인력 한계를 중점으로 생각하고 싶다.
얻고자 하는 목표(고객니즈) 를 발굴하는건 당연하다. 하지만 기술적인 요구사항이 기획 구체화에 걸림돌이 될 수 있다. 따라서 필요한 조직 인력 구성, 내재화된 AI 리서처와 서비스 상용화에 대한 긴밀한 대화가 필요하다. 
 

Voice cloning 기술을 탑재한 기능은 어떻게 만드나?

음성합성 AI 기술은 크게 음성(Speech)으로 번역(Text)을 자동화하거나, 텍스트(Text)만 입력해서 다양한 캐릭터 음성(Speech)을 발화하게 만드는 기능에 쓰인다. 예를 들어, Voice cloning 을 이용한 상용화된 서비스 살펴보자. 
 
*참고
1. STT (음성 -> 텍스트) 
2. TTS (텍스트 -> 음성) 

STT(Speech To Text)에 의한 음성입력 → LM(Language Model)에 의한 언어생성 → TTS(Text To Speech)에 의한 음성 (대화) 인터페이스 구현 (이때, 구글 TTS 알고리즘은 Tacotron 2를 사용한다.)

 
 
 
 
그렇다면 나만의 음성으로 성경을 오디오로 듣고 싶어하는 비즈니스가 있다고 생각해보자.
 
1) 고객의 니즈는 chapter 별로 나뉘어져 있는 성경 66권 중에 듣고 싶어하는 부분만 골라서 오디오로 제작하고 싶어한다.

2) 고객은 다양한 발화 스타일로 제작된 오디오를 원한다. 성별, 다국어 설정, emotion, speed 을 주문제작할 수 있다면 좋다. 

(예시1)현재 volesh 가 서비스하고 있는 바이블리 앱은 오디오 제작 상품을 판매하고 있다.

 
 
 

(예시2)유사한 typecast 서비스. 오디오북을 다양한 캐릭터 음성으로 읽게 할 수 있다.

 
 
 

1) 목표로 하는 유저 스토리 설정 

 

1) AI 기능으로 얻고자 하는 것 : 내가 가장 따르는 목사의 목소리를 이용해서 성경을 들을 수 있다. 

AI 를 오픈소스로만 경험해보면, 내재화된 리서처와 어떻게 협업해야하는지, 어떻게 만들어야할지는 막막한 편이다.

따라서 AI 로 얻고자하는 기능정의를 functional requirements 에 잘 기재한다. 

 

 2) 현재 상용화된 서비스가 겪고 있는 기술적 한계 *
유사한 음성 서비스인 타입캐스트, 뤼이드가 부딪힌 기술적인 한계는 무엇이 있는지 리서치한다. depth 있는 리서치가 필요하므로 논문까지는 읽어줘야한다. 실제로 AI 서비스는 논문 등록 확보가 중요하므로 오픈해둔 서비스들이 많다.

 

3) 고객이 달성하고자 하는 목적 정교하게 설정하기 :

서비스가 없다면? 을 가정하여, 교인들이 오프라인에서 성경 통독하는 프로세스를 벤치마킹한다. 

 

많은 교인들은 가족들과 성경 통독을 계획했다. 하지만, 성경통독은 66권에 도달하기에 너무 큰 분량이다. 이때, 성경 말씀은 온누리교회 A 목사님이 읊어주는 것이 훨씬 잘 기억된다. 그렇다면, 분량을 나눠서 온누리 교회 A 목사님의 성경 말씀을 들을 수 있다면? 

 

4) 품질 수준 / 기준 명확하게 하기 : '적은 양'(48문장, 1시간동안 녹음할 수 있는 분량)의 데이터로 모든 성경 음성을 '자연스럽게' (원본 음성의 발화 속도,높낮이, 톤, 더듬는 것, 웃는 소리, 한숨와 유사도 N로) 만들어야한다. 

 

이때 고객이 AI 음성을 통해 서비스의 품질을 판단하는 결정적 요소를 찾아야한다. 상용화된 AI 서비스들에 대해 사용자들이 의심을 품고 있는 부분은 '애매한 성능' 이라고 생각한다. '어라, 뤼튼한테 인풋 넣고 아웃풋 넣었더니 헛소리하네?' 이 말이 나오면 서비스의 신뢰가 떨어진다. 따라서, 생성된 목사님의 성경 말씀을 사용자가 들었을 때 서비스 품질을 판단하는 결정적인 요소를 디테일하게 찾아야한다. 자연스럽고, 안정된 음성이여야한다. 

 

더보기

'적은 양' 으로도, 발화자의 '특장점'을 추출해서 합성된 음성에 반영시켜 '자연스러운 음성' 을 만드는 핵심이라고 하겠다.

모델링, 데이터 구축을 어떻게 할 것인지 리서치 필요

 
 

2) Functional Requirements 

주로 user story 와 화면을 매칭해서 작성한다. (To be continued : Functional 한 부분은 와이어프레이밍이 필요하므로, 작업 이후 다음 게시글에서 상세히 작성하겠다.)
 
 
 
 
 
 
 
 


 
참고 : 
 
https://yozm.wishket.com/magazine/detail/2724/

 

꾸준히 성장하는 AI 제품은 어떻게 만들까? | 요즘IT

짧은 주기로 쏟아져나오는 생성형 AI 기술들로 인해 마음이 조급해졌던 적이 있습니다. 그러나 개인적인 시행착오와 여러 AI 스타트업의 성공 및 실패 사례들로 배운 것이 있습니다. 추상적인 컨

yozm.wishket.com

https://aiheroes.ai/community/32
https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=466
https://github.com/serp-ai/bark-with-voice-clone