개인적인 프로젝트를 하고 그 프로젝트에서 기존의 웹에 있는 글들을 음성으로 변환시킬수 잇는 작업을 하게 되었다. 그에 있어 구현시 알아야할 기능들을 정리 해보았다.
TTS
- TTS 란?
- TTS(Text To Speech)는 한국말 직역으로 하자면 음성 합성으로 간단히 말해 컴퓨터에 기입되어 있는 Text 형태의 데이터를 인식해 음성으로 변환하는 기술이다.
- 주로, 시각장애인들을 위해 개발된 이 기능은 요즘 교육이나 영상등 여러 분야에서 사용되고 있다.
- 작동원리
- 텍스트 입력: 사용자가 텍스트를 입력하거나 선택합니다.
- 언어 처리: 입력된 텍스트의 문법과 구조를 분석하여 올바른 발음을 결정합니다.
- 음성 합성: 분석된 정보를 바탕으로 음성을 생성합니다.
- 음성 출력: 생성된 음성을 스피커 등을 통해 출력합니다.
- TTS(Text To Speech)는 한국말 직역으로 하자면 음성 합성으로 간단히 말해 컴퓨터에 기입되어 있는 Text 형태의 데이터를 인식해 음성으로 변환하는 기술이다.
우리가 사용하는 대중교통 안내방송, 전자책 읽기등이 이 기능을 사용한다.

STT
- STT 란?
- STT (Speech To Text)는 사람이 말하는 음성을 컴퓨터가 인식하여 텍스트로 변환 및 출력하는 기술이다.
- 보통 유튜브 자동 자막이나 내비게이션 음성 명령, 스마트폰 음성 입력등에 이 기술이 사용된다.
- 작동원리
- 음성 입력: 마이크를 통해 사용자의 음성을 수집합니다.
- 신호 처리: 수집된 음성에서 잡음을 제거하고, 특징적인 소리를 추출합니다.
- 패턴 인식: 추출된 소리를 미리 학습된 데이터와 비교하여 단어와 문장으로 변환합니다.
- 텍스트 출력: 최종적으로 인식된 내용을 텍스트 형태로 제공합니다.일단 이 기능들을 사용해보려고 한다.
여러가지 STT 나 TTS 기능을 구현 및 활용 할수 있는 방법들이 있지만 난 그중 Azure 을 이용해 우선적으로 TTSf를 구현 및 보다 음성을 네이티브 혹은 원어민 수준으로 모델을 트레이닝을 해볼 생각이다. 또한 진행하면서 어떻게 하면 STT를 활용해 음성의 발음을 평가 할수 있을지 공부를 해나아가야 겠다. 다만 내가 프로젝트에 사용되는 언어가 Swift 이다보니 SDK나 모듈면에서 잘 지원이 되는지 적용을 했을때 메모리나 구현이 잘되는지 테스팅을 해보아야 겠다. 알아보니 Azure 계정을 생성후에, 그리고 음성 API 를 생성후 엔드포인트와 API를 활용해 모델을 쓰는것 같은데 어떻게 트레이닝을 하는지 좀더 알아보아야 겠다. 우선 언어는 Eng - Kor, 혹은 Kor - Eng 을 시작으로 Eng - Jap, Jap- Eng 등등으로 트레이닝을 해나아갈 생각이다.

Reference:
https://ko.wikipedia.org/wiki/%EC%9D%8C%EC%84%B1_%ED%95%A9%EC%84%B1
음성 합성 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. TTS의 일반적 개요 음성 합성(音聲合成, speech synthesis)은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리
ko.wikipedia.org
https://learn.microsoft.com/en-us/azure/ai-services/speech-service/text-to-speech
Text to speech overview - Speech service - Azure AI services
Get an overview of the benefits and capabilities of the text to speech feature of the Speech service.
learn.microsoft.com
https://learn.microsoft.com/en-us/azure/ai-services/speech-service/custom-speech-overview
Custom speech overview - Speech service - Azure AI services
Custom speech is a set of online tools that allows you to evaluate and improve the speech to text accuracy for your applications, tools, and products.
learn.microsoft.com
https://learn.microsoft.com/ko-kr/azure/ai-services/speech-service/text-to-speech
텍스트 음성 변환 개요 - 음성 서비스 - Azure AI services
음성 서비스의 텍스트 음성 변환 기능의 이점과 기능에 대한 개요를 알아보세요.
learn.microsoft.com
텍스트 음성 변환 빠른 시작 - 음성 서비스 - Azure AI services
텍스트 음성 변환 앱을 만드는 방법을 알아보고 지원되는 오디오 형식 및 사용자 지정 구성 옵션을 탐색합니다.
learn.microsoft.com
https://goyald.medium.com/text-to-speech-conversion-using-azure-cloud-services-4ec38496909c
Text to Speech conversion using Azure cloud services
This demo application was created as part of a training that I recently delivered. This application is conceptually similar to another…
goyald.medium.com
Data, privacy, and security for text to speech - Azure AI services
This document details issues for data, privacy, and security for text to speech in Speech Service.
learn.microsoft.com
'[Project를 위한 서비스]' 카테고리의 다른 글
| [Project를 위한 서비스] Azure TTS 를 Cutomize 해보기 (0) | 2025.01.07 |
|---|---|
| [Cloud] IaaS, PaaS, SaaS 비교및 정리 (0) | 2025.01.06 |
| [Project- study] SEO (Search Engine Optimization) 개념정리 (1) | 2025.01.03 |