شرح بالصور طريقة استعمال Whisper من OpenAI لتحويل صوتك إلى نص في الويندوز

بوشريط صلاح الدين فبراير 14, 2023

1 9 5 دقائق

شرح بالصور طريقة استعمال Whisper من OpenAI لتحويل صوتك إلى نص في الويندوز

Whisper من OpenAI هو حل ذكاء اصطناعي جديد يحول الكلام إلى نص بشكل فريد وأفضل للجميع. كما أنه يأتي مجانًا وبدون دفع فلس واحد.

ومع ذلك، هناك مشكلة بسيطة نسبيًا. تعد أدوات ويندوز العادية أكثر صعوبة في التثبيت والاستخدام. خاصة إذا كنت ترغب في استخدام Tensor Cores لبطاقة رسومات إنفيديا للحصول على أداء أفضل. تحقق من أفضل 7 أدوات لتحويل نص إلى صورة باستعمال الذكاء الاصطناعي

لكن لا تيأس. لهذا نحن هنا. تابع القراءة لمعرفة طريقة تثبيته واستخدامه. وإذا كنت تمتلك بطاقة رسومات إنفيديا، فإليك كيف يمكن لـ Whisper الاستفادة منها.

شرح ماهية OpenAI Whisper؟

تكتسب ChatGPT شعبية كبيرة بين المستخدمين وقد رأينا بالفعل طريقة استخدام ChatGPT مع OpenAI. ومع ذلك، ليس هذا هو المشروع الوحيد المثير للاهتمام من قبل OpenAI.

مدعوم من التعلم العميق والشبكات العصبية، Whisper هو نظام معالجة لغة طبيعي يمكنه “فهم” الكلام وتحويله إلى نص. ولكنه يتميز أيضًا ببعض التكوينات المخصصة في هذا المجال ويتفوق على جميع الحلول المماثلة بفضل:

Whisper هو حل ذكاء اصطناعي “مدرب” على لغة طبيعية. لذلك فإن فهم الكلام البشري “الطبيعي” أفضل من الحل القديم.
كما لا يأتي Whisper بواجهة ولا يمكنه تسجيل الصوت. يمكن فقط استرداد ملفات الصوت الموجودة وملفات نص الإخراج.
Whisper هو الأفضل ليس فقط في “فهم اللغة” ولكن أيضًا في الترجمة الآلية.
أيضا Whisper ليست خدمة عبر الإنترنت وتعمل بشكل كامل في وضع عدم الاتصال.
إذا كانت لديك بطاقة رسومات إنفيديا (GTX970 أو أحدث)، فيمكنك تشغيل Whisper في “وضع تسريع الأجهزة” للاستجابة بشكل أسرع.
لا يلزم التسجيل أو شراء الترخيص أو شراء الاشتراك.

بطاقات AMD غير مدعومة

لكي تكون وحدات معالجة الرسومات مفيدة لأكثر من إخراج الرسومات، يجب أن تعمل كمعالجات قابلة للبرمجة بالكامل. لهذا السبب أنشأت إنفيديا بنية CUDA. هذا رسميًا هو “منصة الحوسبة المتوازية ونموذج البرمجة”.

CUDA هي تقنية مملوكة لشركة إنفيديا وهي متوافقة فقط مع وحدات معالجة الرسومات إنفيديا. أقرب البدائل من AMD هي OpenCL و Radeon Compute Platform.

مقارنة بالبدائل، فإن CUDA أكثر نضجًا وأداءً وأسهل في الاستخدام. لذلك، يستهدف معظم المطورين CUDA فقط وتستفيد تطبيقاتهم فقط من إمكانيات الأجهزة لوحدات معالجة الرسومات إنفيديا. وهذا يشمل Whisper.

قبل شراء معالج جديد .. إليك أشياء يجب عليك معرفتها عن المعالجات

طريقة تنزيل وتثبيت Whisper

لسوء الحظ، Whisper ليس تطبيقًا مستقلاً يمكنك تنزيله وتثبيته وتشغيله كالمعتاد. يعتمد أيضًا على التبعيات الأخرى التي يجب تثبيتها.

بالنسبة لنظام التشغيل ويندوز، لإبقاء هذا الدليل بسيطًا، سنستخدم Chocolatey الشهير لتثبيت معظم التطبيقات التي نحتاجها.

تتشابه عملية التثبيت مع كل من Linux و Mac (باستثناء متغيرات مسار ويندوز وملف دفعي سهل الإنشاء):

لتثبيت Whisper واستخدامه، تحتاج إلى تثبيت Python وأداة PIP الخاصة به وإضافته إلى متغير “path” ويندوز.
قم بتثبيت FFMPEG من Chocolatey باستخدام الأمر التالي:

choco install ffmpeg

طريقة تنزيل وتثبيت Whisper

أيضًا، قم بتثبيت إصدار Python على النحو التالي:

pip3 install python-ffmpeg

أخيرًا، قم بتثبيت Whisper من صفحة Github:

pip3 install git+https://github.com/openai/whisper.git

احصل على إصدار Whisper الذي يدعم CUDA

لا يستخدم Whisper بشكل أساسي وحدات معالجة الرسومات إنفيديا، ولكن حزمة Torch الأساسية تقدم إصدارًا مسرعًا من CUDA. عند استخدامه بدلاً من الإصدار “العادي” من Whisper، يمكنك إكمال النسخ بشكل أسرع بمساعدة بطاقة الرسومات إنفيديا الخاصة بك.

لأجل الحصول على Whisper ، الذي يستخدم CUDA من إنفيديا:

إذا كان لديك إصدار “فانيلا” من Torch مثبت بالفعل، فقم بإلغاء تثبيته وإزالة أي ملفات متبقية باستخدام:

pip3 uninstall torch

بمجرد الانتهاء من ذلك، اتبع الأمر:

pip cache purge

قم بتثبيت إصدار Torch الذي يدعم CUDA باستخدام الأمر التالي:

pip3 install torch torchvision torchaudio — extra-index-url https://download.pytorch.org/whl/cu117

احصل على إصدار Whisper الذي يدعم CUDA

للتحقق مما إذا كان بإمكان Whisper استخدام إنفيديا GPU:

whisper — help | findstr -i pytorch

يجب أن تشاهد default: cuda بدلاً من default: cpu.

هل فشل تثبيت Torch؟ عندها:

إذا تلقيت خطأ “لم يتم العثور على الإصدار” أثناء تثبيت Torch، فقد تحتاج إلى تثبيت إصدار أقدم من Python جنبًا إلى جنب مع إصدارك الحالي.

للقيام بذلك، استخدم الأمر:

choco install python — version OLDER_VERSION — side-by-side

استبدل “OLDER_VERSION” بإصدار مثل 3.10:

هل فشل تثبيت Torch؟ عندها:

ثم استخدم مسار الإصدار الثانوي لجميع أوامر Whisper “العامة” (على سبيل المثال “c: \ Python310 \ Scripts \ pip.exe” بدلاً من “pip”).

طريقة تسجيل الصوت

يمكنك استخدام أي تطبيق تسجيل صوتي لتحويل الصوت إلى ملفات WAV أو MP3. يتضمن ويندوز مثل هذا التطبيق.

للحصول على خيارات كاملة الميزات، جرب Audacity. تعرف على طريقة تسجيل الصوت على ويندوز و Mac باستخدام Audacity.

طريقة تسجيل الصوت

طريقة بدأ الكتابة مع Whisper

لا يحتوي Whisper على واجهة مستخدم رسومية بسيطة، ولكنه سهل الاستخدام للغاية.

في المجلد c:\MyAudioFiles. لنفترض أن لديك ملف باللغة العربية LatestNote.mp3 وترغب في ترجمته إلى اللغة الإنجليزية ونسخه إلى ملف نصي.

أولاً، قم بتشغيل موجه الأوامر أو PowerShell.
استخدم الأمر التالي “لتغيير الدليل” حيث يتم تخزين الملفات الصوتية.

cd C:\MyAudioFiles

قم بتشغيل Whisper على الملفات التالية:

whisper — model base — language gr — task translate LatestNote.mp3

طريقة بدأ الكتابة مع Whisper

بمجرد اكتمال العملية، سيظهر ملف نصي (يسمى “LatestNote.mp3.txt”) في نفس المجلد. افتحه في محرر نصي مثل المفكرة لعرض النص المترجم.

لقد استخدمت المثال المترجم لأن النسخ الإنجليزي أكثر وضوحًا. لا تستخدم سوى العلامات “فقد” و “–language” و “-task”. لذلك بالنسبة للتدوين الصوتي البسيط، سيكون الأمر أعلاه:

whisper — model base LatestNote.mp3

علامة “النموذج” مطلوبة لأن Whisper يستخدم واحدًا من مجموعة متنوعة من الخيارات. دعنا نوسعها بحيث يمكنك اختيار أفضل ما يناسب احتياجاتك.

أي نموذج نختار؟

يقدم Whisper نماذج لغوية مختلفة. تعتبر الطرز الأكبر حجمًا أكثر دقة، ولكن لها أيضًا متطلبات أعلى للأجهزة. إنها:

Small.
Medium.
Large.
Tiny.
Base.

الأشكال الصغيرة Tiny أو الأساسية Base جيدة لمعظم المتحدثين باللغة الإنجليزية. قد يحصل المتحدثون غير الناطقين باللغة الإنجليزية على نتائج أفضل مع نماذج أكبر مثل المتوسطة والكبيرة.

لاحظ، مع ذلك، أن الطرازين المتوسط Medium والكبير Large يتطلبان 8 جيجابايت على الأقل من VRAM (“ذاكرة وحدة معالجة الرسومات”).

أي نموذج نختار؟

لتحديد واحد منهم، حدد النموذج بعد مفتاح “- model” في الأمر:

whisper — model tiny/small/medium/large [file]

على سبيل المثال:

whisper — model small My_Voice_Note.mp3

طريقة تبسيط التفريغ الصوتي

يمكن أن تصبح الحاجة إلى كتابة أمر Whisper بالكامل في كل مرة تريد فيها نسخ الصوت مملة بسرعة. لتبسيط العملية، لنقم بإنشاء ملف دفعي يمكن الوصول إليه عالميًا.

قم بتشغيل ويندوز إكسبلورر وانتقل إلى محرك الأقراص C:.
قم بإنشاء مجلد للبرنامج النصي الخاص بك وانسخ مساره إلى الحافظة الخاصة بك.
في قائمة ابدأ في ويندوز، ابحث عن المسار وحدد تغيير متغيرات بيئة النظام.

طريقة تبسيط التفريغ الصوتي

ابحث عن متغير المسار ضمن متغير المستخدم YOUR_USERNAME. انقر نقرًا مزدوجًا فوقه لتغييره. انقر فوق جديد وألصق المسار إلى مجلد البرامج النصية. ثم انقر فوق “موافق” لقبول التغييرات الخاصة بك.

طريقة تبسيط التفريغ الصوتي

ارجع إلى مجلد البرامج النصية في مستكشف ويندوز. قم بإنشاء ملف دفعي جديد هناك يسمى “wht.bat”. “داخلها”، أضف الأمر التالي:

whisper — model tiny — language en %1

طريقة تبسيط التفريغ الصوتي

ثم إنشاء ملفين دفعي “whs” و “wm”.
أضف الأمر التالي داخل الملف الأول:

whisper — model small — language en %1

أضف الأمر التالي داخل الملف الثاني:

whisper — model medium — language en %1

تهانينا. لدينا الآن ثلاث ملفات لتسهيل استخدام قوالب Whisper Small و Medium و Basic مع ملفاتك الصوتية. لتحويل ملفات الصوت إلى نص:

حدد موقع الملف باستخدام مستكشف ملفات ويندوز.
انقر بزر الماوس الأيمن فوق مساحة فارغة وحدد فتح في Terminal.
أدخل الأمر التالي، واستبدل “wht” بـ “whs” أو “wm” لاستخدام تنسيق اللغة الثانوية أو المتوسطة.

wht YOUR_AUDIO_FILE.mp3

حتى أسرع الكتاب لا يستطيعون الكتابة بالسرعة التي نتحدث بها. ولكن حتى وقت قريب، لم يكن التحدث هو أفضل طريقة لإنشاء مستند، بدلاً من الكتابة.

أعطت معظم حلول تحويل الصوت إلى نص نتائج متواضعة. تمكنت من العثور على حل يستحق المحاولة، ولكنه كان إما معقدًا جدًا للاستخدام أو مكلفًا للغاية. لحسن الحظ، غيرت Whisper كل ذلك.

بعد اتباع الخطوات المذكورة أعلاه، تكون جاهزًا لنسخ الصوت أو ترجمته بدقة عالية باستخدام أمر واحد فقط.

الوسوم