[Codex] GPT로 쇼츠 영상 자동화 시키기(Codex Skill)

초보자용 핵심 개념

쇼츠 영상 하나를 만들려면 보통 이런 재료가 필요합니다.

대본
음성 파일, 즉 TTS
이미지
자막
영상으로 합치기

영상에서는 이 과정을 사람이 하나하나 하지 않고, Codex에게 “이런 순서로 자동화 스킬을 만들어줘”라고 시키는 방식을 설명합니다.

준비물

초보자 기준으로 필요한 것은 크게 3가지입니다.

첫째, ChatGPT 유료 구독
영상에서는 Plus 이상이면 가능하다고 설명합니다. 다만 사용량 제한이 있어서 하루에 여러 개를 무제한으로 만들기는 어렵다고 말합니다.

둘째, VS Code
코드를 직접 많이 치는 것이 아니라, Codex를 실행할 작업 공간으로 사용합니다.

셋째, ElevenLabs API 키
음성을 만들기 위해 ElevenLabs라는 TTS 서비스를 사용합니다. 영상에서는 저렴한 플랜을 쓰고 API 키를 발급받아 .env 파일에 넣는 과정을 보여줍니다.

전체 작업 흐름

1. VS Code 설치 및 폴더 만들기

먼저 VS Code를 설치하고, 바탕화면 등에 새 폴더를 만듭니다.
이 폴더가 쇼츠 자동화 프로젝트 공간이 됩니다.

대략 이 부분:
https://www.youtube.com/watch?v=QNE2efGtUSA&t=90s

2. VS Code에서 Codex 확장 설치

VS Code의 확장 메뉴에서 Codex를 검색해 설치합니다.
한국어로 쓰고 싶으면 Korean Language Pack도 설치할 수 있습니다.

설치 후 VS Code를 껐다 켜면 상단이나 사이드 메뉴에 Codex가 보입니다.

대략 이 부분:
https://www.youtube.com/watch?v=QNE2efGtUSA&t=150s

3. 쇼츠 자동화에 필요한 구조를 Codex에게 설명

Codex에게 이런 식으로 요청합니다.

한국사 쇼츠 자동화 스킬을 만들고 싶어.
흐름은 1번 대본 생성, 2번 ElevenLabs API로 TTS 생성, 3번 대본에 맞는 이미지 생성, 4번 자막 생성, 5번 최종 영상으로 합치기야.
로컬에서 결과를 볼 수 있는 뷰어도 만들어줘.

핵심은 “무엇을 만들지”보다 “어떤 순서로 작동해야 하는지”를 명확히 알려주는 것입니다.

대략 이 부분:
https://www.youtube.com/watch?v=QNE2efGtUSA&t=360s

4. ElevenLabs API 키 넣기

Codex가 프로젝트 파일들을 만들면, .env 같은 환경 파일에 ElevenLabs API 키와 보이스 ID를 넣습니다.

쉽게 말하면:

API 키 = ElevenLabs를 사용할 수 있는 비밀번호 같은 것
Voice ID = 어떤 목소리로 읽을지 정하는 값

절대 API 키를 영상, 블로그, 깃허브 등에 공개하면 안 됩니다.

대략 이 부분:
https://www.youtube.com/watch?v=QNE2efGtUSA&t=620s

5. 서버 실행 후 결과 확인

Codex에게 “서버 실행해줘”라고 요청하면 로컬 뷰어가 뜹니다.
그다음 Codex Skill을 실행해서 실제 쇼츠를 생성합니다.

처음에는 테스트용 이미지나 기본 결과물이 나올 수 있고, 이후 다시 요청해서 자막 싱크, 이미지 생성 방식, 영상 스타일 등을 고칩니다.

대략 이 부분:
https://www.youtube.com/watch?v=QNE2efGtUSA&t=780s

영상에서 강조하는 중요한 포인트

Codex Skill은 “반복 작업 자동화 도구”에 가깝다

한 번 잘 만들어두면 매번 이렇게 시킬 수 있습니다.

오늘은 조선 단종 이야기로 1분 쇼츠 만들어줘.
대본 만들고, 음성 만들고, 이미지 만들고, 자막 입히고, 영상으로 렌더링해줘.

즉, 매번 처음부터 편집하는 것이 아니라 나만의 쇼츠 제작 공장을 만드는 느낌입니다.

처음 만든 결과물은 완성형이 아니다

영상에서도 처음 만든 결과물은 기본적인 수준이고, 이후 계속 다듬습니다.

예를 들면:

자막은 중앙에 넣어줘.
자막은 TTS와 싱크 맞춰줘.
이미지 전환을 부드럽게 해줘.
대본은 1분 분량으로 만들어줘.
폰트는 Pretendard로 해줘.
자막은 최대 두 줄까지만 나오게 해줘.

이런 식으로 계속 개선하는 과정이 중요합니다.

좋은 대본을 만드는 팁

영상 후반부에서는 벤치마킹 채널의 쇼츠 대본을 분석해서 시스템 프롬프트로 만드는 방법도 소개합니다.

쉽게 말하면:

잘되는 쇼츠 채널을 찾는다.
그 채널의 대본을 여러 개 모은다.
ChatGPT에게 “이 대본들의 제목, 후킹, 구성, 말투를 분석해줘”라고 한다.
분석 결과를 내 자동화 Skill에 반영한다.
그러면 비슷한 구조의 대본을 더 잘 만들 수 있다.

대략 이 부분:
https://www.youtube.com/watch?v=QNE2efGtUSA&t=1300s

초보자가 이해해야 할 핵심만 정리하면

이 영상의 핵심은 이것입니다.

쇼츠 자동화는 결국 “대본 → 음성 → 이미지 → 자막 → 영상 합치기”의 반복입니다.

그리고 Codex Skill은 이 반복 작업을 대신 해주는 자동화 도구입니다.

초보자는 처음부터 완벽한 자동화 프로그램을 만들려고 하기보다, 먼저 이렇게 시작하면 됩니다.

1단계: 대본만 자동으로 만들기
2단계: 대본을 TTS로 읽히기
3단계: 이미지 생성 붙이기
4단계: 자막 넣기
5단계: 최종 영상으로 합치기
6단계: 결과물을 보면서 계속 수정하기

주의할 점

또한 영상에서는 Plus 플랜 기준으로 사용량 제한이 있어 하루에 1~3개 정도가 현실적일 수 있다고 설명합니다. 이미지 생성이나 Codex 사용량에 따라 달라질 수 있습니다.

결론

이 영상은 코딩을 잘 모르는 사람에게도 **“Codex에게 반복 작업을 설명해서 쇼츠 제작 자동화 시스템을 만들 수 있다”**는 흐름을 보여줍니다.

초보자 관점에서 가장 중요한 문장은 이겁니다.

쇼츠 자동화는 어려운 코딩 문제가 아니라, 내가 원하는 제작 순서를 Codex에게 정확히 설명하고 계속 고쳐나가는 작업입니다.

저작자표시 비영리 변경금지 (새창열림)

'AI 프로그래밍 > Codex' 카테고리의 다른 글

[모바일용] 테트리스 게임 !! (0)	2026.05.11
[Codex] 설치부터 Hello World 실행까지 (Windows 11 기준) (1)	2026.05.03
[🚀 OpenAI] Codex란 무엇인가? (0)	2026.05.01

[Codex] GPT로 쇼츠 영상 자동화 시키기(Codex Skill)

초보자용 핵심 개념

준비물