Mode Transkripsi, Dijelaskan

Hari ini, kita akan membahas mesin transkripsi TurboScribe, dengan fokus pada tiga mode transkripsinya – Citah, Lumba-lumba, dan Paus.

Apa perbedaan antara 3 mode ini? Ini ringkasannya:

Citah adalah mode tercepat. Mode ini menyalin 1 jam audio atau video dalam 30 detik. Mode ini diatur untuk memberikan transkrip secepat mungkin.
Lumba-lumba memberikan akurasi yang sangat tinggi, sambil tetap sangat cepat. Dibutuhkan sekitar 3 menit untuk menyalin 1 jam audio atau video.
Paus diatur untuk akurasi maksimal. Mode ini menyalin 1 jam audio atau video dalam waktu kurang dari 10 menit.

Saat mengunggah file, Anda dapat memilih di antara 3 mode ini ( Paus adalah mode default).

Jadi mana yang harus Anda pilih? Kami menyarankan untuk memulai dengan mode default (Paus) untuk akurasi maksimal dan beralih ke Lumba-lumba atau Citah ketika Anda membutuhkan transkrip lebih cepat.

Bagi Anda yang ingin memahami lebih baik apa yang terjadi di balik layar, silakan lanjutkan membaca.

Whisper: Lebih dari Sekadar Tampilan

Mari kita lihat lebih dekat Whisper, teknologi AI di balik transkripsi TurboScribe.

Whisper bukan hanya model AI tunggal; sebenarnya ini adalah keluarga dari lima model, masing-masing dengan pertimbangan berbeda antara akurasi dan kecepatan.

Di level terendah, Whisper dimulai dengan model "tiny" (dengan "hanya" 39 juta parameter) dan mencapai "large" (dengan 1,55 miliar parameter).

"tiny" adalah yang tercepat, tapi membuat paling banyak kesalahan. "base" dan "small" lebih baik dari kebanyakan manusia. "large" adalah yang paling akurat (sebanding dengan penyalin dan penerjemah profesional), tapi membutuhkan banyak memori dan perangkat keras yang mahal.

5 Model Whisper

Keluarga Whisper memiliki 5 model AI berbeda:

tiny — 39 juta parameter
base — 74 juta parameter (menggerakkan mode Citah TurboScribe)
small — 244 juta parameter (menggerakkan mode Lumba-lumba TurboScribe)
medium — 769 juta parameter
large — 1,55 miliar parameter (menggerakkan mode Paus TurboScribe)

Sayangnya, kecuali Anda memiliki komputer yang sangat kuat atau memiliki akses ke GPU (unit pemrosesan grafis) yang tangguh, kebanyakan orang akan kesulitan menjalankan model yang lebih besar dari "base" secara efisien.

GPU adalah kunci untuk menyalin audio dengan cepat. Sayangnya, mereka juga cukup mahal. Saat ini, satu Nvidia A100 — chip "yang menggerakkan perlombaan AI" — berharga $6.715,00 di Amazon.

TurboScribe menggunakan GPU untuk mempercepat transkripsi secara signifikan dan menyelesaikan lebih banyak pekerjaan, lebih cepat.

Membandingkan Waktu Transkripsi

Mari kita bandingkan setiap mode TurboScribe pada mesin transkripsi bertenaga GPU kami dengan menyalin file audio 1 jam tentang Perang Dunia 2.

Citah

Citah memprioritaskan penyampaian transkrip akurat dengan kecepatan maksimal, didukung oleh model "base" dengan 74 juta parameter. Beginilah tampilan penyalinan file audio 1 jam kami:

Itu memakan waktu hanya 20 detik. Dengan kata lain, ini cepat.

Lumba-lumba

Lumba-lumba, dengan 244 juta parameter, membutuhkan waktu sedikit lebih dari dua kali lipat (yang masih cukup cepat):

Paus

Akhirnya, Paus membutuhkan waktu sekitar 3 menit untuk menyalin file audio 1 jam yang sama (dengan model Whisper "large-v2" yang masif berisi 1,55 miliar parameter):

Perlu diingat bahwa waktu transkripsi dapat sedikit bervariasi.

Misalnya, menyalin file video besar 4GB (dengan 2 jam audio) akan memakan waktu lebih lama daripada file MP3 yang lebih kecil 100MB dengan 2 jam audio yang sama — ini sebagian besar karena kita harus menghabiskan lebih banyak waktu untuk mentransfer, menganalisis, memproses awal, dan mengkonversi file media Anda sebelum benar-benar memulai transkripsi.

File audio dengan sedikit suara manusia yang terdeteksi (bayangkan rekaman audio dengan banyak periode hening) biasanya dapat disalin lebih cepat. Selain itu, menyalin beberapa file juga biasanya lebih cepat daripada menyalin satu file.

Membandingkan Akurasi

Untuk banyak file audio dan video umum, tidak ada perbedaan antara Citah, Lumba-lumba, dan Paus.

Di mana Lumba-lumba dan Paus benar-benar bersinar adalah dalam kasus di mana petunjuk kontekstual diperlukan untuk membedakan kata-kata yang terdengar mirip.

Misalnya, dalam rekaman hukum yang terputus-putus, cepat dengan banyak suara latar belakang, istilah "Habeas Corpus" salah diterjemahkan sebagai "happy is porpoise" dengan Citah. Namun, berdasarkan konteks percakapan sekitarnya (yang melibatkan istilah hukum lainnya), baik Lumba-lumba dan Paus dengan benar menentukan bahwa "Habeas Corpus" adalah transkripsi yang paling mungkin.

Berikut contoh lain: dalam sebuah rekaman audio, seorang wanita bernama Kristina Hernandez memperkenalkan dirinya dan mengeja namanya.

Citah salah menyalin namanya sebagai "Christina" (bukan "Kristina"):

(Pembicara 1) Nama saya Christina Hernandez. Dieja K R I S T I N A H E R N A N D E Z. (Pembicara 2) Terima kasih, Christina.

Lumba-lumba salah menyalin penggunaan pertama namanya, tetapi memperbaiki penggunaan kedua dari istilah tersebut (setelah dia mengeja namanya):

(Pembicara 1) Nama saya Christina Hernandez. Dieja K R I S T I N A H E R N A N D E Z. (Pembicara 2) Terima kasih, Kristina.

Paus mendapatkan kedua penggunaan dengan benar:

(Pembicara 1) Nama saya Kristina Hernandez. Dieja K R I S T I N A H E R N A N D E Z. (Pembicara 2) Terima kasih, Kristina.

Meningkatkan Akurasi Dengan Metadata

Ada kasus di mana bahkan penerjemah manusia tidak dapat menentukan transkripsi yang benar secara pasti. Misalnya, jika Kristina tidak pernah mengeja namanya, akan mustahil (berdasarkan audio saja) untuk menentukan ejaan yang benar dari namanya.

Untuk meningkatkan akurasi lebih jauh, TurboScribe menggunakan metadata yang terlampir pada file audio dan video yang Anda unggah (seperti nama file, judul, dan deskripsi) untuk secara otomatis meningkatkan transkripsi istilah yang tidak dapat ditentukan secara pasti berdasarkan audio saja.

Misalnya, jika judul metadata MP3, artis, atau komentar merujuk pada "Kristina Hernandez", ketiga mode lebih mungkin untuk menyalin namanya dengan benar.

Penutup

Singkatnya, TurboScribe menawarkan tiga mode transkripsi:

Citah menyediakan transkripsi akurat secepat mungkin.
Lumba-lumba bertujuan untuk keseimbangan sempurna antara akurasi dan kecepatan.
Paus memaksimalkan akurasi, tetapi membutuhkan waktu lebih lama. Ini adalah mode default TurboScribe.

Cara terbaik untuk benar-benar memahami kemampuan mereka adalah dengan mencobanya sendiri. Mulai secara gratis dan salin hingga 4 file audio atau video secara gratis setiap hari.

TurboScribe