1.06 iZotope RX 12 - テキストナビゲーション(Text Navigation)

1.06 iZotope RX 12 - テキストナビゲーション(Text Navigation)

▲ 目次へ戻る

概要(Overview)

Text Navigation は、音声を文字起こしに変換し、スペクトログラムの上に表示して対応するオーディオと同期させて表示します。文字起こししたテキストは検索可能で、ファイルの内容を示す参照点となります。これにより、マーカーを手動で配置するためにファイルを試聴する必要がなくなります。

注:Text Navigation は編集ナビゲーションツールとして設計されており、文字起こしサービスではありません。アメリカ英語に最適化されています。目立つ背景ノイズがある場合や、話者が非アメリカ語訛りの場合は精度が変わることがあります。

ワークフロー(Workflow)

まず RX にオーディオをドラッグまたはインポートし、スペクトログラム左下の Speech Recognition Word Lane ボタンをクリックします。

オーディオの文字起こしはすぐに開始され、バックグラウンドでリアルタイムの約 7~9 倍の速さで実行されます。文字起こしはスペクトログラム上の Word Lane のタブに入り、処理中であることを示します。

オーディオ素材は次の要件を満たす必要があります。

  • オーディオは会話またはスピーチである必要があります―現在、楽曲の歌詞の文字起こしには対応していません。
  • オーディオファイルは最低 10 秒以上必要です。10 秒未満のファイルでは音声認識ボタンが無効になります。
  • 現在はアメリカ英語のみ対応しています。

iZotope ロゴをクリックすると、文字起こしの進捗を示す小さなウィンドウが開きます。このウィンドウの下部には、文字起こしを一時停止・キャンセルするボタンがあります。

文字起こしが完了すると、オーディオをズームイン/アウトでき、文字起こしもそれに応じて伸縮します。

  • Mac:Command+= でズームイン、Command+- でズームアウト、またはトラックパッドで二本指で上下にスワイプ。
  • Windows:Ctrl+= でズームイン、Ctrl+- でズームアウト。

単語タブをクリックすると、スペクトログラムで対応するオーディオが選択されます。タブの両端のハンドルをドラッグして、周囲の単語・フレーズ・文を選択できます。

1 タブに単語が 1 つになるほどズームインすると、単語をダブルクリックして選択し、編集可能になります。誤字の修正や、編集に合わせた個々の単語の変更ができます。

  • 編集時、タブに複数の単語を入力してもタブは分割されません。
  • タブに何も入力しなくてもタブは削除されません。
  • Word Lane を右クリックして Rescan できます(再スキャンすると修正内容は上書きされます)。

検索(Search)

Text Navigation には、語句やそのゆれ(トランスクリプト内の誤字など)を見つけるあいまい検索があります。個々の文字でも検索できます。

検索は、置き換え語の探索、特定セクションへの移動、別テイクの検索に最適です。

3 文字以下の検索はオートコンプリートのように動作し、その文字で始まる語を探します。それ以外はあいまい検索として動作し、検索クエリに似た結果を返します。

Text Navigation Pane ボタンをクリックして検索パネルを表示します。

注:スペクトログラムの上に文字起こしを表示するには、Word Lane ボタンも有効にする必要があります。

検索ボックスに単語を入力して Return/Enter を押します。単語が見つかると、そのすべての出現箇所がオーディオ内の出現順に一覧表示されます。語のゆれも一覧表示されます。単語が見つからない場合は、オーディオ内で識別されたゆれのみが一覧表示されます。

一覧の単語をクリックすると、再生ヘッドがその単語に移動し、対応するオーディオがハイライトされます。

置き換えたい単語がある場合は、その単語の出現箇所を検索し、最適なものを選んでコピーし、元の単語に上書きペーストします。

検索は選択した単語への処理のターゲットにも使えます。単語の両端のハンドルをドラッグすると、選択したオーディオに処理をターゲットできます。

注:検索は編集した単語でも機能しますが、タブに単語・フレーズを複数入力すると検索結果に悪影響を及ぼすことがあります。

複数話者の検出(Multiple Speaker Detection)

Text Navigation には、トラックに複数の話者がいることを自動検出し、各話者に関連するスピーチ区間を色分けする機能が組み込まれています。

複数話者の検出は、テキスト文字起こしパスの完了後に実行されます。最大 8 人の話者を検出できます。

各話者には固有の識別色が付与され、スピーカーペインと文字起こしの対応するタブに表示されます。

ある話者のすべての出現箇所を選択するには、スピーカーペインで話者名をクリックします。話者ごとに特定の処理をターゲットしやすくなります。話者名をダブルクリックすると、プロジェクトのニーズに合わせて編集・変更できます。

トランスクリプトの書き出し(Export Transcript)

Transcript Export メニューには、Text Navigation Pane 上部のメニューボタンをクリックするか、Word Lane を右クリックしてアクセスします。

  • Copy transcript to clipboard:文字起こししたテキストをコピーしてワープロアプリに貼り付けます。
  • Export transcript to file:文字起こしテキストを .txt ファイルとして書き出します。
  • Rescan speech to text:ファイルを再度文字起こしします。

参照元情報:Text Navigation
https://docs.izotope.com/rx12/en/text-navigation.html

▲ 目次へ戻る

    • Related Articles

    • 0. iZotope RX 12 ユーザーガイド 目次(Table of Contents)

      iZotope RX 12 ユーザーガイド 目次(Table of Contents) 本ガイドの全記事の目次です。各項目をクリックすると該当ページへ移動します。各記事のヘッダ/フッタの「▲ 目次へ戻る」からここへ戻れます。 1. RX Audio Editor の基本 1.01 RX の概要(RX Overview) 1.02 ファイルの操作(Working with Files) 1.03 RX Audio Editor での録音(Recording in the RX Audio ...
    • 1.01 iZotope RX 12 - RX の概要(RX Overview)

      ▲ 目次へ戻る iZotope の数々の賞を受賞した RX ソフトウェアは、オーディオの修復・復元・補正における業界標準です。RX は、一般的なものから複雑なものまで、さまざまなオーディオの問題を解消することに特化した包括的なツール群を備えています。ポストプロダクションのプロフェッショナル、オーディオエンジニア、音楽プロデューサー、映像編集者まで、幅広いユーザーが RX を使って、問題のある録音を納品可能なオーディオへと変えています。 RX には ...
    • 2.41 iZotope RX 12 - Normalize

      ▲ 目次へ戻る 対応:RX Standard および Advanced|モジュール 概要(Overview) Normalize モジュールは、信号のサンプルピークレベルを指定した Target Peak Level に設定するのに十分なゲインを適用します。 Target Peak Level Target Peak Level [dBFS]:ノーマライゼーションの結果としての信号の最大ピークレベルを決定します。 参照元情報:Normalize ...
    • 2.37 iZotope RX 12 - Gain

      ▲ 目次へ戻る 対応:RX Standard および Advanced|モジュール 概要(Overview) Gain モジュールは、オーディオのレベルを上げ下げするのに役立ちます。Gain は特定の時間-周波数選択範囲にも適用でき、スペクトログラムウィンドウで選択範囲を手動で減衰・ブーストできます。 コントロール(Controls) Gain 指定したデシベル量だけ信号のレベルをブーストまたはカットします。 インスタントプロセスツール(Instant Process Tool) 対応:RX ...
    • 2.40 iZotope RX 12 - Mixing

      ▲ 目次へ戻る 対応:RX Standard および Advanced|モジュール 概要(Overview) 左右両方の信号とバランスレベルを個別にコントロールします。このシンプルな操作で、ステレオ素材のモノラルへのダウンミックス、波形の反転、左右ステレオの Mid/Side への変換、センターチャンネルの除去など、さまざまなことができます。 コントロール(Controls) Left Output Mix (%) ...