
🤖 اون ویدئوهایی که زیرنویس به صورت خودکار (کلمهبهکلمه) میاد چیه قضیهش؟
این کار رو معمولاً با ابزارهای هوش مصنوعی مخصوص ترنسکریپشن و سینک زیرنویس انجام میدن، نه خود Canva. ابزارهایی مثل:
- Descript
- CapCut (نسخه AI)
- VEED.io
- Adobe Premiere Pro (Speech to Text)
- Subly
- AutoSub + After Effects یا Premiere
Canva فقط خروجی نهایی ویدیویی رو میگیره که توش این زیرنویسها قبلاً اضافه شده، یا نهایتاً یه زیرنویس معمولی تایمبندیشده (نه کلمه به کلمه) رو وارد میکنی.
🔧 راهحل حرفهای: ترکیب AI + AE
- با یه ابزار AI صدا رو ترنسکرایب کن (مثلاً با Descript یا Premiere Pro Speech to Text)
- فایل SRT یا JSON زیرنویس کلمه به کلمه بگیر
- از اسکریپتهایی مثل “mamoworld Subtitle Importer” برای AE استفاده کن
اینا زیرنویس رو اتوماتیک و سینکشده به تایملاین AE اضافه میکنن، حتی با انیمیشن.
با استفاده از افزونه Subtitle pro در افترافکتس بصورت حرفه ای تونستم این کار رو بکنم.

زیرنویس فارسی
✅ راههای ساخت خودکار زیرنویس فارسی (SRT) با هوش مصنوعی:
Whisper (توسعهی OpenAI) – دقیقترین روش فعلی
💡 چی هست؟
یه مدل قدرتمند شناسایی صدا و تبدیل گفتار به متن. از فارسی هم پشتیبانی کامل میکنه.
✔️ مزایا:
- دقیق، مخصوصاً برای لهجه تهرانی
- متن رو با تایمکد برمیگردونه، خروجی SRT یا VTT میده
- متن ترجمهنشده و دقیق صوت رو مینویسه
🔧 روش استفاده:
pip install openai-whisper
python --version
C:\Users\Iman\AppData\Local\Programs\Python\Python310
C:\Users\Iman\AppData\Local\Programs\Python\Python310\Scripts
pip --version
whisper "C:\Users\Iman\Desktop\video.mp4" --language fa --task transcribe --output_format srt --output_dir "C:\Users\Iman\Desktop"نصب ffmpeg از این آدرس: https://www.gyan.dev/ffmpeg/builds/
🔍 آیا اجرای Whisper با GPU دقت زیرنویس رو بیشتر میکنه؟
✅ جواب کوتاه: نه، GPU فقط سرعت رو بیشتر میکنه، نه دقت رو.
خطایی مثل «جغرافیهای» به جای «جغرافیایی» به خاطر مدل زبانی و تشخیص اشتباه تلفظ یا بافت جملهس، نه سختافزار.
💡 اما چه چیزهایی روی دقت تأثیر میذارن؟
1. مدلی که استفاده میکنی خیلی مهمه:
Whisper چند مدل داره:
tinybasesmallmediumlarge(و جدیداًlarge-v2وlarge-v3)
⬅️ هرچی مدل بزرگتر باشه، دقت بیشتره. اما خب منابع بیشتری هم میخواد.
تو احتمالاً داری از مدل پیشفرض استفاده میکنی که معمولاً small یا base ـه.
📌 پیشنهاد من:
اگه برات کیفیت مهمتر از سرعتـه، دستور رو اینطوری بزن:
whisper "video.mp4" --language fa --task transcribe --model large --output_format srt --output_dir "…"اجرا روی GPU
✅ ۱. پیشنیازها برای اجرای Whisper روی GPU
✨ باید اینا نصب باشه:
- PyTorch با پشتیبانی CUDA (برای استفاده از GPU)
- CUDA Toolkit و درایور کارت گرافیک NVIDIA
👣 مرحلهبهمرحله اجرای Whisper روی GPU
🔧 مرحله ۱: نصب PyTorch با پشتیبانی CUDA
برو به سایت زیر:
👉 https://pytorch.org/get-started/locally/
و سیستم خودتو انتخاب کن (مثلاً Windows + pip + CUDA 11.8)
یه دستور مشابه زیر بهت میده، اونو تو ترمینال بزن:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
⚠️ نسخه CUDA باید با کارت گرافیکت و درایور سازگار باشه. اگه شک داری بگو تا راهنماییت کنم.
🔧 مرحله ۲: مطمئن شو PyTorch GPU رو شناسایی میکنه
تو ترمینال پایتون بنویس:
import torch
print(torch.cuda.is_available())
اگر خروجی True بود، یعنی کارت گرافیک آمادهست ✅
دقت داشته باش حالا اون دستور بالا که ترمینال بود رو نمیتونی وارد کنی، باید دستور پایتون باید بزنی:
whisper "C:\\Users\\Iman\\Desktop\\video.mp4" --language fa --task transcribe --output_format srt --output_dir "C:\\Users\\Iman\\Desktop"
🧠 مرحله ۳: اجرای Whisper روی GPU
حالا فقط کافیه Whisper رو اجرا کنی، خودش اوتوماتیک GPU رو استفاده میکنه
مثلاً:
whisper "C:\Users\Iman\Desktop\video.mp4" --language fa --task transcribe --model large --output_format srt --output_dir "C:\Users\Iman\Desktop"✅ اگر کارت گرافیک فعال باشه، تو لاگها مینویسه که از cuda استفاده میکنه، مثل:
Transcribing with model: large
Using device: cuda
💡 نکتهها:
- مدل
largeحدود ۲.۸ گیگ رم GPU میخواد. - اگه GPU قویتری داری (مثل 8GB به بالا)، عالیه و سریع اجرا میشه.
- اگر خواستی مدل
large-v3(دقیقترین نسخه فعلی) رو هم میتونی استفاده کنی:
pip install git+https://github.com/openai/whisper.git
و بعد:
whisper "video.mp4" --language fa --task transcribe --model large-v3
ایجاد زیرنویس برای فایل های صوتی
whisper "C:\Users\Iman\Desktop\audio.mp3" --language fa --task transcribe --model large --output_format srt --output_dir "C:\Users\Iman\Desktop"توضیحات:
C:\Users\Iman\Desktop\audio.mp3: مسیری است که فایل صوتی MP3 شما قرار دارد.--language fa: زبان فایل صوتی فارسی است.--task transcribe: برای تبدیل صوت به متن (ترنسکریپت).--model large: مدل “large” برای دقت بالاتر.--output_format srt: فرمت خروجی SRT که یک فرمت استاندارد برای زیرنویس است.--output_dir "C:\Users\Iman\Desktop": پوشهای که میخواهید فایل زیرنویس تولیدشده در آن ذخیره شود.