زیرنویس خودکار ویدئو – نوشته‌های هوشمند

🤖 اون ویدئوهایی که زیرنویس به صورت خودکار (کلمه‌به‌کلمه) میاد چیه قضیه‌ش؟

این کار رو معمولاً با ابزارهای هوش مصنوعی مخصوص ترنسکریپشن و سینک زیرنویس انجام می‌دن، نه خود Canva. ابزارهایی مثل:

Descript
CapCut (نسخه AI)
VEED.io
Adobe Premiere Pro (Speech to Text)
Subly
AutoSub + After Effects یا Premiere

Canva فقط خروجی نهایی ویدیویی رو می‌گیره که توش این زیرنویس‌ها قبلاً اضافه شده، یا نهایتاً یه زیرنویس معمولی تایم‌بندی‌شده (نه کلمه به کلمه) رو وارد می‌کنی.

🔧 راه‌حل حرفه‌ای: ترکیب AI + AE

با یه ابزار AI صدا رو ترنسکرایب کن (مثلاً با Descript یا Premiere Pro Speech to Text)
فایل SRT یا JSON زیرنویس کلمه به کلمه بگیر
از اسکریپت‌هایی مثل “mamoworld Subtitle Importer” برای AE استفاده کن
اینا زیرنویس رو اتوماتیک و سینک‌شده به تایم‌لاین AE اضافه می‌کنن، حتی با انیمیشن.

با استفاده از افزونه Subtitle pro در افترافکتس بصورت حرفه ای تونستم این کار رو بکنم.

زیرنویس فارسی

✅ راه‌های ساخت خودکار زیرنویس فارسی (SRT) با هوش مصنوعی:

Whisper (توسعه‌ی OpenAI) – دقیق‌ترین روش فعلی

💡 چی هست؟

یه مدل قدرتمند شناسایی صدا و تبدیل گفتار به متن. از فارسی هم پشتیبانی کامل می‌کنه.

✔️ مزایا:

دقیق، مخصوصاً برای لهجه تهرانی
متن رو با تایم‌کد برمی‌گردونه، خروجی SRT یا VTT می‌ده
متن ترجمه‌نشده و دقیق صوت رو می‌نویسه

🔧 روش استفاده:

pip install openai-whisper
python --version
C:\Users\Iman\AppData\Local\Programs\Python\Python310
C:\Users\Iman\AppData\Local\Programs\Python\Python310\Scripts
pip --version

whisper "C:\Users\Iman\Desktop\video.mp4" --language fa --task transcribe --output_format srt --output_dir "C:\Users\Iman\Desktop"

نصب ffmpeg از این آدرس: https://www.gyan.dev/ffmpeg/builds/

🔍 آیا اجرای Whisper با GPU دقت زیرنویس رو بیشتر می‌کنه؟

✅ جواب کوتاه: نه، GPU فقط سرعت رو بیشتر می‌کنه، نه دقت رو.
خطایی مثل «جغرافیهای» به جای «جغرافیایی» به خاطر مدل زبانی و تشخیص اشتباه تلفظ یا بافت جمله‌س، نه سخت‌افزار.

💡 اما چه چیزهایی روی دقت تأثیر می‌ذارن؟

1. مدلی که استفاده می‌کنی خیلی مهمه:

Whisper چند مدل داره:

tiny
base
small
medium
large (و جدیداً large-v2 و large-v3)

⬅️ هرچی مدل بزرگ‌تر باشه، دقت بیشتره. اما خب منابع بیشتری هم می‌خواد.
تو احتمالاً داری از مدل پیش‌فرض استفاده می‌کنی که معمولاً small یا base ـه.

📌 پیشنهاد من:
اگه برات کیفیت مهم‌تر از سرعت‌ـه، دستور رو این‌طوری بزن:

whisper "video.mp4" --language fa --task transcribe --model large --output_format srt --output_dir "…"

اجرا روی GPU

✅ ۱. پیش‌نیازها برای اجرای Whisper روی GPU

✨ باید اینا نصب باشه:

PyTorch با پشتیبانی CUDA (برای استفاده از GPU)
CUDA Toolkit و درایور کارت گرافیک NVIDIA

👣 مرحله‌به‌مرحله اجرای Whisper روی GPU

🔧 مرحله ۱: نصب PyTorch با پشتیبانی CUDA

برو به سایت زیر:

👉 https://pytorch.org/get-started/locally/

و سیستم خودتو انتخاب کن (مثلاً Windows + pip + CUDA 11.8)

یه دستور مشابه زیر بهت می‌ده، اونو تو ترمینال بزن:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

⚠️ نسخه CUDA باید با کارت گرافیکت و درایور سازگار باشه. اگه شک داری بگو تا راهنماییت کنم.

🔧 مرحله ۲: مطمئن شو PyTorch GPU رو شناسایی می‌کنه

تو ترمینال پایتون بنویس:

import torch
print(torch.cuda.is_available())

اگر خروجی True بود، یعنی کارت گرافیک آماده‌ست ✅

دقت داشته باش حالا اون دستور بالا که ترمینال بود رو نمیتونی وارد کنی، باید دستور پایتون باید بزنی:

whisper "C:\\Users\\Iman\\Desktop\\video.mp4" --language fa --task transcribe --output_format srt --output_dir "C:\\Users\\Iman\\Desktop"

🧠 مرحله ۳: اجرای Whisper روی GPU

حالا فقط کافیه Whisper رو اجرا کنی، خودش اوتوماتیک GPU رو استفاده می‌کنه
مثلاً:

whisper "C:\Users\Iman\Desktop\video.mp4" --language fa --task transcribe --model large --output_format srt --output_dir "C:\Users\Iman\Desktop"

✅ اگر کارت گرافیک فعال باشه، تو لاگ‌ها می‌نویسه که از cuda استفاده می‌کنه، مثل:

Transcribing with model: large
Using device: cuda

💡 نکته‌ها:

مدل large حدود ۲.۸ گیگ رم GPU می‌خواد.
اگه GPU قوی‌تری داری (مثل 8GB به بالا)، عالیه و سریع اجرا می‌شه.
اگر خواستی مدل large-v3 (دقیق‌ترین نسخه فعلی) رو هم می‌تونی استفاده کنی:

pip install git+https://github.com/openai/whisper.git

و بعد:

whisper "video.mp4" --language fa --task transcribe --model large-v3

ایجاد زیرنویس برای فایل های صوتی

whisper "C:\Users\Iman\Desktop\audio.mp3" --language fa --task transcribe --model large --output_format srt --output_dir "C:\Users\Iman\Desktop"

توضیحات:

C:\Users\Iman\Desktop\audio.mp3: مسیری است که فایل صوتی MP3 شما قرار دارد.
--language fa: زبان فایل صوتی فارسی است.
--task transcribe: برای تبدیل صوت به متن (ترنسکریپت).
--model large: مدل “large” برای دقت بالاتر.
--output_format srt: فرمت خروجی SRT که یک فرمت استاندارد برای زیرنویس است.
--output_dir "C:\Users\Iman\Desktop": پوشه‌ای که می‌خواهید فایل زیرنویس تولیدشده در آن ذخیره شود.