音声処理技術

テキストの高速音声読み上げ技術

 文章の斜め読みがあるように、音声による斜め読み(=斜め聞き)を実現する技術です。
 電子化されたテキストの内容を、音声合成と適応的な話速変換により、聞き取りやすく読み上げます。

【利用分野】
・ 録音図書(オーディオブックなど)の再生装置への機能導入
・ Web 上のテキスト読み上げソフトウェア
・ IC レコーダーの再生機能として導入

【特  長】
(1) 音声合成と適応的な話速変換で効率的に情報が取得できます。
(2) ソフトウェアへの実装が可能です。
(3) 任意の音声合成器に適応が可能です。
83a-1.PNG
【技術解説】
 文字の場合は、いわゆる「斜め読み」で効率的に内容を把握する読み方がありますが、音声ではそれに相当する聞き方がありません。そこで、「斜め読み」ならぬ「斜め聞き」を実現する技術を提供します。

(1) 文字情報を効率的に聴取できる高速音声再生技術
 この技術の入力はテキストで、出力は音声です。音声合成と適応的な話速変換により、電子化されたテキストの内容を効率的に把握する技術です。インデクシングの無いテキストでも、通常の音声合成の速度で冒頭から順次聞いていく場合に比べて、10 分の1 程度の短時間で文章の概要を把握できます。知りたい情報が見つかったら、その部分をじっくりと聴取することができます。図1 に、「斜め聞き」を実現するための処理の流れを示します。
83a-2.PNG

(2) 本手法で再生される音声
 図2 に、図1 中の「適応的話速変換」部から再生される音声のイメージを示します。上段は、一様な話速変換で合成音声をn 倍速にした音声を表しています。下段は本手法で、合成音声の声の高いところや大きいところ、あるいは、品詞のうち名詞と動詞を「大事な情報」と考え、相対的にゆっくりと再生するといった適応的な話速制御を行なった結果を表しています。上段の方法に比べて、大幅に聞き取りやすくなることが評価実験で確かめられています。
83a-3.PNG

【提供可能な技術】
・ さまざまな話速での音声ファイルの読み上げ技術
・ 音声の音響的な特徴(声の高さや大きさの変化)や、言語情報(品詞など)に関連付けた適応的な話速変換技術

【関連特許】
・ 特許第6062665 号 音声のピッチ周期を抽出する信号処理装置及びプログラム
・ 特許第6224325 号 話速変換装置、及びプログラム
(上記のリンクは開放特許DBにリンクしており、NHKエンジニアリングシステムのWebサイトから離れます)



≪キーワード≫ 聴取補助 / 視覚障害者支援 / 話速変換 / 録音図書(オーディオブック)