3行まとめ
- 「もう一度文字に変換機能」が追加され、音声をサーバーにアップロードして記録を文字起こしします。
- 精度は期待したほどではなく、日本語の文字起こしの精度向上には対応していないようです。
- 主にリアルタイム起こしに対応していない言語の音声データを文字起こしする時に利用できます。
Pixelスマートフォンの音声記録アプリ「レコーダー」に、サーバー上の処理で文字起こしできる機能が追加されました。
レコーダーアプリには、記録した音声をリアルタイムに文字起こしするキラー機能を備えていますが、対応言語が限定されています。今回、新たに追加されたサーバー処理の文字起こし機能を利用することで、さらに多くの言語の音声データを文字起こしできます。
文字起こしの精度改善は期待できず
もう一度文字に変換機能は、音声をGoogleのサーバーにアップロードして長い処理時間のあとに記録した音声が書き起こされます。
リアルタイム文字起こしは、文字起こしのスピードが要求されるため、オンデバイスAIによって実現されています。音声データをクラウドやサーバーにアップロードしなくても良いためプライバシーの面でも優れています。
その一方で精度は完璧ではありません。そこで、今回追加されたもう一度文字に変換機能を使って、サーバーによる文字起こしを行えば、精度向上も期待できると思って使用してみたところ、以下の画像のとおり酷く悪化しました。
左:リアルタイム文字起こし、右:もう一度文字に変換
今回追加されたもう一度文字に変換機能は、今のところ文字起こしの精度を高めるために利用することはできず(少なくとも日本語では)、リアルタイム文字起こしに対応していない言語の音声データを文字起こししたい時に利用できる機能と言えそうです。
コメントを残す