โหมดการถอดความ อธิบายแบบละเอียด

วันนี้ เราจะมาลงลึกเกี่ยวกับเครื่องมือถอดความของ TurboScribe โดยเน้นที่โหมดการถอดความทั้งสามแบบ – ชีตาห์ โดลฟิน และวาฬ

อะไรคือความแตกต่างระหว่างโหมดทั้ง 3 นี้? นี่คือสรุปสั้นๆ:

ชีตาห์ เป็นโหมดที่เร็วที่สุด สามารถถอดความเสียงหรือวิดีโอ 1 ชั่วโมงภายใน 30 วินาที ถูกปรับแต่งมาเพื่อส่งมอบการถอดความให้เร็วที่สุดเท่าที่จะเป็นไปได้
โดลฟิน ให้ความแม่นยำสูงมาก ในขณะที่ยังคงความเร็วไว้ได้ ใช้เวลาประมาณ 3 นาทีในการถอดความเสียงหรือวิดีโอ 1 ชั่วโมง
วาฬ ถูกปรับแต่งเพื่อความแม่นยำสูงสุด ใช้เวลาน้อยกว่า 10 นาทีในการถอดความเสียงหรือวิดีโอ 1 ชั่วโมง

เมื่อคุณอัปโหลดไฟล์ คุณสามารถเลือกระหว่างโหมดทั้ง 3 แบบนี้ได้ (โดย วาฬ เป็นค่าเริ่มต้น)

แล้วคุณควรเลือกแบบไหน? เราแนะนำให้เริ่มต้นด้วยค่าเริ่มต้น (วาฬ) เพื่อความแม่นยำสูงสุด และเปลี่ยนเป็นโดลฟินหรือชีตาห์เมื่อคุณต้องการการถอดความที่เร็วขึ้น

สำหรับผู้ที่ต้องการทำความเข้าใจเพิ่มเติมเกี่ยวกับการทำงานเบื้องหลัง เชิญอ่านต่อได้เลย

Whisper: มากกว่าที่ตาเห็น

มาดูใกล้ๆ กับ Whisper เทคโนโลยี AI ที่อยู่เบื้องหลังการถอดความของ TurboScribe

Whisper ไม่ใช่แค่โมเดล AI เดียว แต่เป็นตระกูลของ โมเดล 5 แบบ แต่ละแบบมีการแลกเปลี่ยนระหว่างความแม่นยำและความเร็วที่แตกต่างกัน

ในระดับต่ำสุด Whisper เริ่มต้นด้วยโมเดล "tiny" (ที่มีพารามิเตอร์ "เพียง" 39 ล้านตัว) ไปจนถึง "large" (ที่มีพารามิเตอร์ 1.55 พันล้าน ตัว)

"tiny" เร็วที่สุด แต่ทำให้เกิดข้อผิดพลาดมากที่สุด "base" และ "small" ดีกว่ามนุษย์ส่วนใหญ่ "large" มีความแม่นยำมากที่สุด (เทียบเท่ากับนักถอดความและนักแปลมืออาชีพ) แต่ต้องใช้หน่วยความจำมากและต้องใช้ฮาร์ดแวร์ราคาแพง

โมเดล 5 แบบของ Whisper

ตระกูล Whisper ประกอบด้วยโมเดล AI 5 แบบ:

tiny — 39 ล้านพารามิเตอร์
base — 74 ล้านพารามิเตอร์ (ขับเคลื่อนโหมด ชีตาห์ ของ TurboScribe)
small — 244 ล้านพารามิเตอร์ (ขับเคลื่อนโหมด โดลฟิน ของ TurboScribe)
medium — 769 ล้านพารามิเตอร์
large — 1.55 พันล้านพารามิเตอร์ (ขับเคลื่อนโหมด วาฬ ของ TurboScribe)

น่าเสียดายที่หากคุณไม่มีคอมพิวเตอร์ที่มีประสิทธิภาพสูงหรือไม่มี GPU (หน่วยประมวลผลกราฟิก) ที่แรง คนส่วนใหญ่จะพบปัญหาในการรันโมเดลที่ใหญ่กว่า "base" อย่างมีประสิทธิภาพ

GPU คือความลับของการถอดความเสียง อย่างรวดเร็ว น่าเสียดายที่มันมีราคาแพงมาก ณ เวลาที่เขียนบทความนี้ Nvidia A100 ชิปเดียว — ซึ่งเป็น "ตัวขับเคลื่อนการแข่งขันด้าน AI" — มีราคา $6,715.00 บน Amazon

TurboScribe ใช้ GPU เพื่อเพิ่มความเร็วในการถอดความอย่างมากและทำงานได้มากขึ้น เร็วขึ้น

เปรียบเทียบเวลาในการถอดความ

มาเปรียบเทียบโหมดแต่ละแบบของ TurboScribe บนเครื่องมือถอดความที่ขับเคลื่อนด้วย GPU ของเรา โดยถอดความไฟล์เสียง 1 ชั่วโมงเกี่ยวกับสงครามโลกครั้งที่ 2

ชีตาห์

ชีตาห์ให้ความสำคัญกับการส่งมอบการถอดความที่แม่นยำด้วยความเร็วสูงสุด ขับเคลื่อนด้วยโมเดล "base" ที่มี 74 ล้านพารามิเตอร์ นี่คือลักษณะการถอดความไฟล์เสียง 1 ชั่วโมงของเรา:

ใช้เวลาเพียง 20 วินาที พูดง่ายๆ คือ เร็วมาก

โดลฟิน

โดลฟิน ด้วย 244 ล้านพารามิเตอร์ ใช้เวลามากกว่าสองเท่าเล็กน้อย (ซึ่งก็ยังค่อนข้างเร็ว):

วาฬ

สุดท้าย วาฬใช้เวลาประมาณ 3 นาทีในการถอดความไฟล์เสียง 1 ชั่วโมงเดียวกัน (ด้วยโมเดล Whisper "large-v2" ที่มีพารามิเตอร์มหาศาล 1.55 พันล้านตัว):

โปรดทราบว่าเวลาในการถอดความอาจแตกต่างกันเล็กน้อย

ตัวอย่างเช่น การถอดความไฟล์วิดีโอขนาดใหญ่ 4GB (ที่มีเสียง 2 ชั่วโมง) จะใช้เวลามากกว่าไฟล์ MP3 ขนาดเล็กกว่า 100MB ที่มีเสียง 2 ชั่วโมงเช่นกัน — ส่วนใหญ่เป็นเพราะเราต้องใช้เวลามากขึ้นในการถ่ายโอน วิเคราะห์ ประมวลผลล่วงหน้า และแปลงไฟล์สื่อของคุณก่อนที่จะเริ่มการถอดความจริงๆ

ไฟล์เสียงที่มีเสียงพูดของมนุษย์น้อย (เช่น การบันทึกเสียงที่มีช่วงเงียบเป็นเวลานาน) มักจะถอดความได้เร็วกว่า นอกจากนี้ การถอดความหลายไฟล์พร้อมกันมักจะเร็วกว่าการถอดความทีละไฟล์

เปรียบเทียบความแม่นยำ

สำหรับไฟล์เสียงและวิดีโอทั่วไปจำนวนมาก จะไม่มีความแตกต่าง ระหว่าง ชีตาห์ โดลฟิน และ วาฬ

จุดที่ โดลฟิน และ วาฬ โดดเด่นจริงๆ คือในกรณีที่ต้องใช้ บริบทแวดล้อม เพื่อแยกแยะคำที่มีเสียงคล้ายกัน

ตัวอย่างเช่น ในการบันทึกเสียงทางกฎหมายที่มีเสียงรบกวนพื้นหลังสูงและพูดเร็ว คำว่า "Habeas Corpus" ถูกแปลผิดเป็น "happy is porpoise" ด้วย ชีตาห์ อย่างไรก็ตาม จากบริบทของการสนทนาโดยรอบ (ซึ่งเกี่ยวข้องกับคำศัพท์ทางกฎหมายอื่นๆ) ทั้ง โดลฟิน และ วาฬ สามารถระบุได้อย่างถูกต้องว่า "Habeas Corpus" เป็นการถอดความที่น่าจะถูกต้องที่สุด

นี่คืออีกตัวอย่าง: ในการบันทึกเสียง ผู้หญิงชื่อ Kristina Hernandez แนะนำตัวและสะกดชื่อของเธอ

ชีตาห์ ถอดความชื่อของเธอผิดเป็น "Christina" (แทนที่จะเป็น "Kristina"):

(ผู้พูด 1) ฉันชื่อ Christina Hernandez สะกดว่า K R I S T I N A H E R N A N D E Z (ผู้พูด 2) ขอบคุณค่ะ Christina

โดลฟิน ถอดความการใช้ชื่อครั้งแรกผิด แต่แก้ไขการใช้ชื่อครั้งที่สอง (หลังจากที่เธอสะกดชื่อ):

(ผู้พูด 1) ฉันชื่อ Christina Hernandez สะกดว่า K R I S T I N A H E R N A N D E Z (ผู้พูด 2) ขอบคุณค่ะ Kristina

วาฬ ถอดความได้ถูกต้องทั้งสองครั้ง:

(ผู้พูด 1) ฉันชื่อ Kristina Hernandez สะกดว่า K R I S T I N A H E R N A N D E Z (ผู้พูด 2) ขอบคุณค่ะ Kristina

การปรับปรุงความแม่นยำด้วยข้อมูลเมตา

มีบางกรณีที่แม้แต่นักแปลที่เป็นมนุษย์ก็ไม่สามารถระบุการถอดความที่ถูกต้องได้อย่างชัดเจน ตัวอย่างเช่น หาก Kristina ไม่ได้สะกดชื่อของเธอ ก็จะเป็นไปไม่ได้ (จากเสียงเพียงอย่างเดียว) ที่จะระบุการสะกดชื่อที่ถูกต้องของเธอ

เพื่อปรับปรุงความแม่นยำให้ดียิ่งขึ้น TurboScribe ใช้ข้อมูลเมตา ที่แนบมากับไฟล์เสียงและวิดีโอที่คุณอัปโหลด (เช่น ชื่อไฟล์ ชื่อเรื่อง และคำอธิบาย) เพื่อปรับปรุงการถอดความคำที่ไม่สามารถระบุได้อย่างชัดเจนจากเสียงเพียงอย่างเดียว

ตัวอย่างเช่น หากข้อมูลเมตาของ MP3 เช่น ชื่อเรื่อง ศิลปิน หรือความคิดเห็นมีการอ้างถึง "Kristina Hernandez" ทั้ง 3 โหมดจะมีแนวโน้มที่จะถอดความชื่อของเธอได้ถูกต้องมากขึ้น

สรุป

โดยสรุป TurboScribe มีโหมดการถอดความสามแบบ:

ชีตาห์ ให้การถอดความที่แม่นยำเร็วที่สุดเท่าที่จะเป็นไปได้
โดลฟิน มุ่งเน้นความสมดุลที่สมบูรณ์แบบระหว่างความแม่นยำและความเร็ว
วาฬ เน้นความแม่นยำสูงสุด แต่ใช้เวลานานขึ้น เป็นโหมดเริ่มต้นของ TurboScribe

วิธีที่ดีที่สุดในการทำความเข้าใจความสามารถของพวกมันคือการลองใช้ด้วยตัวคุณเอง เริ่มต้นใช้งานฟรี และถอดความไฟล์เสียงหรือวิดีโอได้สูงสุด 4 ไฟล์ฟรีทุกวัน

TurboScribe