Google Pixelのレコーダーアプリにサーバー処理の音声文字起こし機能が追加
Yusuke Sakakura

Yusuke Sakakura
ブログメディア「携帯総合研究所」を運営しています。学生時代に開設して今年が16年目。スマートフォンの気になる最新情報をいち早くお届けします。各キャリア・各メーカーの発表会に参加し、取材も行います。SEの経験を活かして料金シミュレーターも開発しています。
2023/12/16 10:40

Pixelスマートフォンの音声記録アプリ「レコーダー」に、サーバー上の処理で文字起こしできる機能が追加されました。
レコーダーアプリには、記録した音声をリアルタイムに文字起こしするキラー機能を備えていますが、対応言語が限定されています。今回、新たに追加されたサーバー処理の文字起こし機能を利用することで、さらに多くの言語の音声データを文字起こしできます。
文字起こしの精度改善は期待できず
もう一度文字に変換機能は、音声をGoogleのサーバーにアップロードして長い処理時間のあとに記録した音声が書き起こされます。
リアルタイム文字起こしは、文字起こしのスピードが要求されるため、オンデバイスAIによって実現されています。音声データをクラウドやサーバーにアップロードしなくても良いためプライバシーの面でも優れています。
その一方で精度は完璧ではありません。そこで、今回追加されたもう一度文字に変換機能を使って、サーバーによる文字起こしを行えば、精度向上も期待できると思って使用してみたところ、以下の画像のとおり酷く悪化しました。


左:リアルタイム文字起こし、右:もう一度文字に変換
今回追加されたもう一度文字に変換機能は、今のところ文字起こしの精度を高めるために利用することはできず(少なくとも日本語では)、リアルタイム文字起こしに対応していない言語の音声データを文字起こししたい時に利用できる機能と言えそうです。
コメントを残す