音声処理技術

簡易字幕制作システム

 生放送番組や講演会等で人が原稿を読み上げる状況において、音声認識を利用して、今どの原稿のどこの部分が読み上げられているかを推定して、その箇所の文字情報を字幕として送出する技術です。

【利用分野】
 ・字幕制作システム
 ・リアルタイム情報提示システム

【特  長】
 ・音声認識に若干の誤りがあっても、読まれている原稿の箇所を特定できます。
 ・原稿が部分的に読み飛ばされたり、言いかえられたりしても、読まれている原稿の箇所を特定できます。
 ・原稿にない文章がアドリブで話された場合、誤った原稿が特定されることはありません。
 ・どの原稿がどのような順番で読まれるかを事前に決めておく必要はありません。
 ・本番中に原稿に差し替えがあっても、字幕制作を止めずに、バックグラウンドで原稿を更新できます。

47b-1.PNGのサムネイル画像
【技術解説】
 本技術は、あらかじめ原稿が必要であるという制約はありますが、話者の音声を直接認識して字幕にする場合に不可欠な修正者(音声認識の誤りをリアルタイムで発見して修正する特殊技能者)が不用であるという利点があります。また、生放送ならではの流動的な運用にも対応できる、以下のようなさまざまな機能を備えています。

(1) 原稿自動推定アルゴリズム
 事前にシステムに登録した原稿の中から、現在、読み上げられている箇所を精度よく推定するアルゴリズムを開発しました。このアルゴリズムを使えば、読み上げ音声の認識結果に多少の誤りが含まれていても影響を受けないばかりか、原稿が言いかえられたり、読み飛ばされた場合でも、原稿の誤った箇所を特定してしまうことはありません。さらに、番組の中に、インタビューのようなもともとの原稿に用意されていない部分が含まれていても、字幕にならないだけで、原稿の推定に支障を与えることはありません。
 文末まで読み上げられるのを待たずに原稿を特定するので、少ない遅れ時間で字幕を表示できます。
47b-2.PNG
(2) 原稿登録インターフェース
 事前に手際よく原稿を入力するための操作性に優れたインターフェースや、番組の途中で原稿が変更になっても字幕制作を止めることなく、原稿を差し替えることができるインターフェースを備えています。

【提供可能な技術】
 ・リアルタイム音声認識技術
 ・原稿推定技術
 ・字幕制作システム

【関連特許】
 ・特許第6406988号 音声認識誤り修正装置
 ・特開2016-80863 音声認識誤り修正装置
(上記のリンクは開放特許DBにリンクしており、NHKエンジニアリングシステムのWebサイトから離れます)


≪キーワード≫ 字幕制作 / 音声認識