วันนี้ เราจะมาลงลึกเกี่ยวกับเครื่องมือถอดความของ TurboScribe โดยเน้นที่โหมดการถอดความทั้งสามแบบ – ชีตาห์ โดลฟิน และวาฬ
อะไรคือความแตกต่างระหว่างโหมดทั้ง 3 นี้? นี่คือสรุปสั้นๆ:
ชีตาห์ เป็นโหมดที่เร็วที่สุด สามารถถอดความเสียงหรือวิดีโอ 1 ชั่วโมงภายใน 30 วินาที ถูกปรับแต่งมาเพื่อส่งมอบการถอดความให้เร็วที่สุดเท่าที่จะเป็นไปได้
โดลฟิน ให้ความแม่นยำสูงมาก ในขณะที่ยังคงความเร็วไว้ได้ ใช้เวลาประมาณ 3 นาทีในการถอดความเสียงหรือวิดีโอ 1 ชั่วโมง
วาฬ ถูกปรับแต่งเพื่อความแม่นยำสูงสุด ใช้เวลาน้อยกว่า 10 นาทีในการถอดความเสียงหรือวิดีโอ 1 ชั่วโมง
เมื่อคุณอัปโหลดไฟล์ คุณสามารถเลือกระหว่างโหมดทั้ง 3 แบบนี้ได้ (โดย วาฬ เป็นค่าเริ่มต้น)
แล้วคุณควรเลือกแบบไหน? เราแนะนำให้เริ่มต้นด้วยค่าเริ่มต้น (วาฬ) เพื่อความแม่นยำสูงสุด และเปลี่ยนเป็นโดลฟินหรือชีตาห์เมื่อคุณต้องการการถอดความที่เร็วขึ้น
สำหรับผู้ที่ต้องการทำความเข้าใจเพิ่มเติมเกี่ยวกับการทำงานเบื้องหลัง เชิญอ่านต่อได้เลย
Whisper: มากกว่าที่ตาเห็น
มาดูใกล้ๆ กับ Whisper เทคโนโลยี AI ที่อยู่เบื้องหลังการถอดความของ TurboScribe
Whisper ไม่ใช่แค่โมเดล AI เดียว แต่เป็นตระกูลของ โมเดล 5 แบบ แต่ละแบบมีการแลกเปลี่ยนระหว่างความแม่นยำและความเร็วที่แตกต่างกัน
ในระดับต่ำสุด Whisper เริ่มต้นด้วยโมเดล "tiny" (ที่มีพารามิเตอร์ "เพียง" 39 ล้านตัว) ไปจนถึง "large" (ที่มีพารามิเตอร์ 1.55 พันล้าน ตัว)
"tiny" เร็วที่สุด แต่ทำให้เกิดข้อผิดพลาดมากที่สุด "base" และ "small" ดีกว่ามนุษย์ส่วนใหญ่ "large" มีความแม่นยำมากที่สุด (เทียบเท่ากับนักถอดความและนักแปลมืออาชีพ) แต่ต้องใช้หน่วยความจำมากและต้องใช้ฮาร์ดแวร์ราคาแพง
โมเดล 5 แบบของ Whisper
ตระกูล Whisper ประกอบด้วยโมเดล AI 5 แบบ:
- tiny — 39 ล้านพารามิเตอร์
- base — 74 ล้านพารามิเตอร์ (ขับเคลื่อนโหมด
ชีตาห์ ของ TurboScribe)
- small — 244 ล้านพารามิเตอร์ (ขับเคลื่อนโหมด
โดลฟิน ของ TurboScribe)
- medium — 769 ล้านพารามิเตอร์
- large — 1.55 พันล้านพารามิเตอร์ (ขับเคลื่อนโหมด
วาฬ ของ TurboScribe)
น่าเสียดายที่หากคุณไม่มีคอมพิวเตอร์ที่มีประสิทธิภาพสูงหรือไม่มี GPU (หน่วยประมวลผลกราฟิก) ที่แรง คนส่วนใหญ่จะพบปัญหาในการรันโมเดลที่ใหญ่กว่า "base" อย่างมีประสิทธิภาพ
GPU คือความลับของการถอดความเสียง อย่างรวดเร็ว น่าเสียดายที่มันมีราคาแพงมาก ณ เวลาที่เขียนบทความนี้ Nvidia A100 ชิปเดียว — ซึ่งเป็น "ตัวขับเคลื่อนการแข่งขันด้าน AI" — มีราคา $6,715.00 บน Amazon
TurboScribe ใช้ GPU เพื่อเพิ่มความเร็วในการถอดความอย่างมากและทำงานได้มากขึ้น เร็วขึ้น
เปรียบเทียบเวลาในการถอดความ
มาเปรียบเทียบโหมดแต่ละแบบของ TurboScribe บนเครื่องมือถอดความที่ขับเคลื่อนด้วย GPU ของเรา โดยถอดความไฟล์เสียง 1 ชั่วโมงเกี่ยวกับสงครามโลกครั้งที่ 2
ชีตาห์
ชีตาห์ให้ความสำคัญกับการส่งมอบการถอดความที่แม่นยำด้วยความเร็วสูงสุด ขับเคลื่อนด้วยโมเดล "base" ที่มี 74 ล้านพารามิเตอร์ นี่คือลักษณะการถอดความไฟล์เสียง 1 ชั่วโมงของเรา:
ใช้เวลาเพียง 20 วินาที พูดง่ายๆ คือ เร็วมาก
โดลฟิน
โดลฟิน ด้วย 244 ล้านพารามิเตอร์ ใช้เวลามากกว่าสองเท่าเล็กน้อย (ซึ่งก็ยังค่อนข้างเร็ว):
วาฬ
สุดท้าย วาฬใช้เวลาประมาณ 3 นาทีในการถอดความไฟล์เสียง 1 ชั่วโมงเดียวกัน (ด้วยโมเดล Whisper "large-v2" ที่มีพารามิเตอร์มหาศาล 1.55 พันล้านตัว):
โปรดทราบว่าเวลาในการถอดความอาจแตกต่างกันเล็กน้อย
ตัวอย่างเช่น การถอดความไฟล์วิดีโอขนาดใหญ่ 4GB (ที่มีเสียง 2 ชั่วโมง) จะใช้เวลามากกว่าไฟล์ MP3 ขนาดเล็กกว่า 100MB ที่มีเสียง 2 ชั่วโมงเช่นกัน — ส่วนใหญ่เป็นเพราะเราต้องใช้เวลามากขึ้นในการถ่ายโอน วิเคราะห์ ประมวลผลล่วงหน้า และแปลงไฟล์สื่อของคุณก่อนที่จะเริ่มการถอดความจริงๆ
ไฟล์เสียงที่มีเสียงพูดของมนุษย์น้อย (เช่น การบันทึกเสียงที่มีช่วงเงียบเป็นเวลานาน) มักจะถอดความได้เร็วกว่า นอกจากนี้ การถอดความหลายไฟล์พร้อมกันมักจะเร็วกว่าการถอดความทีละไฟล์
เปรียบเทียบความแม่นยำ
สำหรับไฟล์เสียงและวิดีโอทั่วไปจำนวนมาก จะไม่มีความแตกต่าง ระหว่าง ชีตาห์
โดลฟิน และ
วาฬ
จุดที่ โดลฟิน และ
วาฬ โดดเด่นจริงๆ คือในกรณีที่ต้องใช้ บริบทแวดล้อม เพื่อแยกแยะคำที่มีเสียงคล้ายกัน
ตัวอย่างเช่น ในการบันทึกเสียงทางกฎหมายที่มีเสียงรบกวนพื้นหลังสูงและพูดเร็ว คำว่า "Habeas Corpus" ถูกแปลผิดเป็น "happy is porpoise" ด้วย ชีตาห์ อย่างไรก็ตาม จากบริบทของการสนทนาโดยรอบ (ซึ่งเกี่ยวข้องกับคำศัพท์ทางกฎหมายอื่นๆ) ทั้ง
โดลฟิน และ
วาฬ สามารถระบุได้อย่างถูกต้องว่า "Habeas Corpus" เป็นการถอดความที่น่าจะถูกต้องที่สุด
นี่คืออีกตัวอย่าง: ในการบันทึกเสียง ผู้หญิงชื่อ Kristina Hernandez แนะนำตัวและสะกดชื่อของเธอ
ชีตาห์ ถอดความชื่อของเธอผิดเป็น "Christina" (แทนที่จะเป็น "Kristina"):
(ผู้พูด 1) ฉันชื่อ Christina Hernandez สะกดว่า K R I S T I N A H E R N A N D E Z (ผู้พูด 2) ขอบคุณค่ะ Christina
โดลฟิน ถอดความการใช้ชื่อครั้งแรกผิด แต่แก้ไขการใช้ชื่อครั้งที่สอง (หลังจากที่เธอสะกดชื่อ):
(ผู้พูด 1) ฉันชื่อ Christina Hernandez สะกดว่า K R I S T I N A H E R N A N D E Z (ผู้พูด 2) ขอบคุณค่ะ Kristina
วาฬ ถอดความได้ถูกต้องทั้งสองครั้ง:
(ผู้พูด 1) ฉันชื่อ Kristina Hernandez สะกดว่า K R I S T I N A H E R N A N D E Z (ผู้พูด 2) ขอบคุณค่ะ Kristina
การปรับปรุงความแม่นยำด้วยข้อมูลเมตา
มีบางกรณีที่แม้แต่นักแปลที่เป็นมนุษย์ก็ไม่สามารถระบุการถอดความที่ถูกต้องได้อย่างชัดเจน ตัวอย่างเช่น หาก Kristina ไม่ได้สะกดชื่อของเธอ ก็จะเป็นไปไม่ได้ (จากเสียงเพียงอย่างเดียว) ที่จะระบุการสะกดชื่อที่ถูกต้องของเธอ
เพื่อปรับปรุงความแม่นยำให้ดียิ่งขึ้น TurboScribe ใช้ข้อมูลเมตา ที่แนบมากับไฟล์เสียงและวิดีโอที่คุณอัปโหลด (เช่น ชื่อไฟล์ ชื่อเรื่อง และคำอธิบาย) เพื่อปรับปรุงการถอดความคำที่ไม่สามารถระบุได้อย่างชัดเจนจากเสียงเพียงอย่างเดียว
ตัวอย่างเช่น หากข้อมูลเมตาของ MP3 เช่น ชื่อเรื่อง ศิลปิน หรือความคิดเห็นมีการอ้างถึง "Kristina Hernandez" ทั้ง 3 โหมดจะมีแนวโน้มที่จะถอดความชื่อของเธอได้ถูกต้องมากขึ้น
สรุป
โดยสรุป TurboScribe มีโหมดการถอดความสามแบบ:
ชีตาห์ ให้การถอดความที่แม่นยำเร็วที่สุดเท่าที่จะเป็นไปได้
โดลฟิน มุ่งเน้นความสมดุลที่สมบูรณ์แบบระหว่างความแม่นยำและความเร็ว
วาฬ เน้นความแม่นยำสูงสุด แต่ใช้เวลานานขึ้น เป็นโหมดเริ่มต้นของ TurboScribe
วิธีที่ดีที่สุดในการทำความเข้าใจความสามารถของพวกมันคือการลองใช้ด้วยตัวคุณเอง เริ่มต้นใช้งานฟรี และถอดความไฟล์เสียงหรือวิดีโอได้สูงสุด 4 ไฟล์ฟรีทุกวัน

