今日は、TurboScribeの文字起こしエンジンに焦点を当て、その3つの文字起こしモード - チーター、ドルフィン、ホエール - について詳しく見ていきます。
これらの3つのモードの違いは何ですか?概要はこちらです:
チーターは最速のモードです。1時間の音声や動画を30秒で文字起こしします。できるだけ早く文字起こしを提供するように調整されています。
ドルフィンは非常に高い精度を提供しながら、非常に速い速度を維持します。1時間の音声や動画を文字起こしするのに約3分かかります。
ホエールは最大限の精度を目指して調整されています。1時間の音声や動画を10分未満で文字起こしします。
ファイルをアップロードする際に、これらの3つのモードのいずれかを選択できます(デフォルトは ホエールです)。
どれを選ぶべきか?最大限の精度を求める場合はデフォルト(ホエール)から始め、もっと速い文字起こしが必要な場合はドルフィンまたはチーターに切り替えることをお勧めします。
内部の仕組みについてもっと知りたい方は、引き続き読んでください。
Whisper: 耳に聞こえる以上のもの
TurboScribeの文字起こしの背後にあるAI技術であるWhisperを詳しく見てみましょう。
Whisperは単なる1つのAIモデルではなく、精度と速度の間にさまざまなトレードオフを持つ5つのモデルからなるファミリーです。
Whisperの最小の「tiny」モデル(「わずか」3900万のパラメータ)から、最大の「large」モデル(1.55億のパラメータ)まであります。
「tiny」は最速ですが、誤りも多いです。「base」と「small」はほとんどの人間よりも優れています。「large」は最も正確で(専門の文字起こし者や翻訳者と同等)、多くのメモリと高価なハードウェアを必要とします。
Whisperの5つのモデル
Whisperファミリーには5つの異なるAIモデルがあります:
- tiny — 3900万パラメータ
- base — 7400万パラメータ(TurboScribeの
チーターモードを搭載)
- small — 2億4400万パラメータ(TurboScribeの
ドルフィンモードを搭載)
- medium — 7億6900万パラメータ
- large — 1.55億パラメータ(TurboScribeの
ホエールモードを搭載)
残念ながら、特に強力なコンピュータや強力なGPU(グラフィックスプロセッシングユニット)にアクセスできない限り、「base」以上のモデルを効率的に実行するのは困難です。
音声を高速で文字起こしする秘訣はGPUです。しかし、GPUも非常に高価です。この記事を書いている時点で、1つのNvidia A100 — AIの競争力を支えるチップ — はAmazonで$6,715.00のコストがかかります。
TurboScribeはGPUを使用して文字起こしを大幅に高速化し、仕事をより早く終わらせます。
文字起こし時間の比較
GPU搭載の文字起こしエンジンで1時間の音声ファイルを文字起こしして、各TurboScribeモードを比較してみましょう。
チーター
チーターは、7400万パラメータの「base」モデルを搭載し、最大速度で正確な文字起こしを提供することを優先しています。1時間の音声ファイルを文字起こしする様子はこちらです:
それはわずか20秒かかりました。言い換えれば、それは速いです。
ドルフィン
ドルフィンは2億4400万パラメータで、少し長くなりますが、それでもかなり速いです:
ホエール
最後に、ホエールは1時間の音声ファイルを文字起こしするのに約3分かかります(1.55億パラメータのWhisper「large-v2」モデルを使用):
文字起こしの時間は若干異なることがあります。
たとえば、大きな4GBのビデオファイル(2時間の音声を含む)を文字起こしする場合、小さな100MBのMP3ファイルと同じ2時間の音声を含むファイルよりも少し時間がかかります。これは主に、ファイルを転送、分析、前処理、変換するのに費やす時間が多いためです。
人間の話し声がほとんど検出できない音声ファイル(たとえば、静かな時間が多い音声録音)は通常、より早く文字起こしできます。さらに、複数のファイルを文字起こしする方が単一のファイルを文字起こしするよりも通常は速くなります。
精度の比較
多くの一般的な音声およびビデオファイルでは、 チーター、
ドルフィン、
ホエールの間に違いはありません。
ドルフィンと
ホエールが真価を発揮するのは、文脈的な手がかりが類似した音の単語を区別するために必要な場合です。
たとえば、雑音の多い急ぎの法的な録音で、「Habeas Corpus」という用語が チーターで「happy is porpoise」と誤訳されました。しかし、周囲の会話の文脈(他の法的用語を含む)に基づいて、
ドルフィンと
ホエールは「Habeas Corpus」が最も可能性の高い文字起こしであると判断しました。
もう一つの例:音声録音で、クリスティーナ・ヘルナンデスという女性が自分の名前を紹介し、名前の綴りを教えます。
チーターは彼女の名前を「Christina」と誤って文字起こしします(「Kristina」ではなく):
(スピーカー 1) 私の名前はクリスティーナ・ヘルナンデスです。スペルはK R I S T I N A H E R N A N D E Zです。(スピーカー 2) ありがとう、クリスティーナ。
ドルフィンは名前の最初の使用を誤って文字起こししますが、名前の綴りの後には正しく修正します:
(スピーカー 1) 私の名前はクリスティーナ・ヘルナンデスです。スペルはK R I S T I N A H E R N A N D E Zです。(スピーカー 2) ありがとう、クリスティーナ。
ホエールは両方の使用を正しく文字起こしします:
(スピーカー 1) 私の名前はクリスティーナ・ヘルナンデスです。スペルはK R I S T I N A H E R N A N D E Zです。(スピーカー 2) ありがとう、クリスティーナ。
メタデータで精度を向上させる
人間の翻訳者でさえ正確な文字起こしを明確に判断できない場合もあります。たとえば、クリスティーナが彼女の名前を綴ったことがなければ、音声だけに基づいて正しい綴りを判断することは不可能でした。
さらに精度を向上させるために、TurboScribeはアップロードした音声およびビデオファイルに添付されたメタデータ(ファイル名、タイトル、説明など)を使用して、音声だけでは明確に判断できない用語の文字起こしを自動的に改善します。
たとえば、MP3のメタデータのタイトル、アーティスト、またはコメントに「クリスティーナ・ヘルナンデス」と記載されている場合、3つのモードすべてが彼女の名前を正しく文字起こしする可能性が高くなります。
まとめ
まとめると、TurboScribeは3つの文字起こしモードを提供します:
チーターは、最大速度で正確な文字起こしを提供します。
ドルフィンは、精度と速度の完璧なバランスを目指しています。
ホエールは精度を最大化しますが、少し時間がかかります。これはTurboScribeのデフォルトモードです。
これらの機能を実際に試してみることが、それらの能力を完全に理解する最良の方法です。無料で始めると、毎日最大4つの音声またはビデオファイルを無料で文字起こしできます。

