音声処理技術

話速変換技術

 音声の発話速度(話速)を自由に調節できる技術です。一様に時間伸縮するだけでなく、時間遅れを蓄積することなく、ゆっくりとした聞こえを実現する機能を備えています。この技術を高速再生に適用することで、2 倍速を超える音声も聞き取りやすくなります。

【利用分野】
 ・テレビ・ラジオ受信機への組み込み
 ・記録した映像の、ダイジェスト視聴のための「早聞き」(家庭向け:HDD レコーダーへの組み込み、プロ向け:編集機への組み込み)
 ・語学学習や聞き取りやすい会話のための支援ツール
 ・パソコンやスマートフォンアプリとしての映像・音声プレーヤー
 ・視覚障害者向け録音図書再生機やオーディオブック、e-ラーニングなどで使われるメディア再生プレーヤーへの組み込み
 ・補聴器などと組み合わせた難聴者支援

【特  長】
 ・話速を変えても声質が変わりません。
 ・高速再生も聞き取りやすくすることができます。
 ・外国語にも利用できます。
12c-1.PNG

【技術解説】
ここで紹介する技術は、テレビやラジオの音声を、声の質はそのままに、話し手があたかもゆっくりと話したかのように変換できる話速変換技術です。この技術を応用することで、2 倍速以上でも、一様に短縮する場合に比べ、内容を聞き取りやすくできます。
(1) 自然な音質を維持したゆっくり再生
 各フレーズの始めや声の高さが高いところを局所的に伸長する一方、息継ぎの" ま" など声のない部分を短縮する「適応的話速変換」によって、テレビやラジオ番組の時間尺を延ばすことなく、ゆっくりと感じられる音声を実現します。
12c-2.PNG
(2) 2 倍速以上でも聞き取りやすい高速再生
 録音した音声では、適応的話速変換を用いて早まわし再生をすることで、内容を聞き取りやすくできます。さらに高速な聞き取りが求められる場合には、図2 のように聞き取りに大事な部分に他の部分よりも優先的に時間を配分する、速度調整も可能です。聞き取りに大事な情報は、声の音響的な特徴や言語的な情報から推定します。
12c-3.PNG

【提供可能な技術】
 ・発話の時間尺を保ちながらゆっくりした音声に変換する技術
 ・高速再生を聞き取りやすく変換する技術
 ・番組音声などから音声区間の検出に関する技術
 ・音声のピッチ抽出に関する技術

【関連特許】
 ・特許第5412204号 適応的な話速変換装置及びプログラム
 ・特許第5863472号 話速変換装置およびそのプログラム
 ・特許第6062665号 音声のピッチ周期を抽出する信号処理装置及びプログラム
(上記のリンクは開放特許DBにリンクしており、NHKエンジニアリングシステムのWebサイトから離れます)


≪キーワード≫ e-ラーニング / 聴取補助 / 視覚障害者支援 / 話速変換 / 高速音声聴取