1. 작업 환경
-
메인 컴퓨터: 개발 및 UI 테스트 담당
-
서버 컴퓨터 (리눅스 노트북): Flask 앱을 실행하는 백엔드 서버로 활용 중
* 네트워크 공유를 통해 메인 컴퓨터에서 서버에 접근 가능하게 설정
* 서버에서 Flask 앱을 실행하고, 메인 컴퓨터에서 결과 확인 및 테스트 진행
-
에디터 기반 작업 설정
* 메인 컴퓨터에서 Visual Studio Code (VS Code) 사용
---
2. 개발 환경
-
백엔드:
* Python + Flask (간단한 API 서버)
* Whisper API (OpenAI) 이용한 음성 → 텍스트 변환
-
프론트엔드:
* HTML (Vanilla JS 기반 인터페이스)
* SCSS로 스타일링, 폴더 구조 정리 후 Sass watch 설정으로 자동 반영
-
파일 구조 및 관리:
* 업로드된 음성 파일은 uploads/<timestamp>/original.xxx로 저장
* 변환 결과는 같은 폴더에 transcript.txt로 저장
---
3. 세부 진행 내용
✅ 구현한 기능 및 요약
-
파일 업로드 (
/upload) -
저장된 파일 목록 조회 (
/files)
* 업로드 시간 기준 정렬
* 변환 상태 표시 (변환 완료 여부)
-
음성 파일 → 텍스트 변환 (
/transcribe)
* Whisper API 호출 및 transcript.txt 저장
💬 느낀 점
-
음성파일을 업로드하고 "변환"을 누르면 결과 텍스트가 오른쪽에 표시됨
-
빠르게 확인해보고 싶어서 OpenAI API를 사용했는데, 나중에 오픈소스로 변경 필요(비용 발생)
-
아이폰 음성메모로 기록한 파일은 바로 적용이 안되고, mp4 등으로 바꿔줘야한다.
(이건 클로바노트도 같은 문제가 있는 것으로보아 뭔가 복잡해보이기도)