NHK技術カタログ

早口の音声を聞きやすくする技術

「背景音がうるさくてセリフが聞こえない」「早口が聞きづらい」というお年寄りのために、受信機側で、背景音を小さくすることや、話す速さをゆっくりとすることができる技術です。

利用分野

・ 高齢者向けテレビ・ラジオ受信機
・ Web などで映像コンテンツを閲覧するソフトウエア

(1) 映像コンテンツの音声(ナレーションやセリフなど)区間と非音声(音楽や効果音などの背景音)だけの区間を自動判別できます。
(2) 音声区間と非音声区間で背景音を抑圧する度合いを独立に調整できます。
(3) 映像コンテンツの視聴者が、背景音を小さくすることや、映像コンテンツの音声の話す速さをゆっくりとさせることができます。

技術解説

放送局では、ナレーションやセリフなどの音声と、音楽や効果音などの背景音が、最適な音量バランスになるように調整して、ナレーションなども適切な話速で放送しています。しかし最適な音量バランスや話速であったとしても、お年寄りの持つ多様な聴力特性や好みなど、すべての要望に応えることは難しくなっています。ここで紹介するのは、番組中の音声と背景音の音量バランスの調整と話速変換を家庭側の受信機でできるようにする技術です。

(1) 音声区間と非音声区間の自動判別
番組音中のナレーションなどの音声のある区間(音声区間)と、音声がなく背景音だけの区間(非音声区間)を精度よく判別する技術です。番組音の周波数やパワー等の特徴量を利用した区間検出技術と、音の大きさ(ラウドネス)を利用した区間検出技術を組み合わせて、高い信頼性を実現します。

(2) 音声区間と非音声区間で背景音を独立調整
音声と背景音が混在する区間と、背景音だけの非音声区間の、区間ごとに背景音の抑圧度合いを独立に調整することができる技術です。

(3) 音声区間で音韻を強調
音声区間では、母音や子音の音響的特徴を明瞭化して、はっきりとした音声に変換します。

(4) 話速変換
声帯の振動周期に相当する音声波形の周期性を利用して波形を伸張し、音声や背景音の高さは保ったまま、速さをゆっくりにします。また、音楽に適した速度変換も選択できます。
この技術により、個人ごとに背景音の大きさを変える、また話速を変えることで、音声の聞きやすさをきめ細かく調節することができます。また、これまでに実施した実験結果から算出した、平均的なお年寄りの聴力や好みに適したパラメーターを利用することもできます。

提供可能な技術

・ 周波数やパワーなどの特徴量の確率モデルを利用した音声区間検出技術
・ お年寄りに適した音声区間と非音声区間の背景音抑圧量調整技術
・ 背景音が混在した音声信号の話速変換技術

関連特許

・ 特許第6159570 号 音声強調装置、及びプログラム
・ 特許第6313619 号 音声信号処理装置及びプログラム
・ 特許第6321334 号 信号処理装置及びプログラム
(上記のリンクは開放特許DBにリンクしており、NHKエンジニアリングシステムのWebサイトから離れます)

≪キーワード≫背景音抑圧 / 話速変換 / 音声区間検出 / 音量バランス / 音韻強調