NHK技術カタログ

要約映像自動生成技術

動画を短くまとめて紹介する映像(要約映像)を自動生成する技術です。この技術を利用することで、番組の内容を短い時間で把握することができるようになります。

利用分野

・ハードディスクレコーダーなどの録画機器における要約映像の自動生成
・放送番組のオンデマンドサービスにおけるお試し視聴用映像の自動生成
・音声のタイミングを考慮したスライドショーなどの要約画像系列の自動生成

特長

・番組スポット映像に採用する映像区間は、EPG に含まれる番組概要文と字幕データ(クローズドキャプション)の類似度を利用して選択します。
・EPG が存在しない番組については、過去の番組から学習した言語特徴や文字スーパー(オープンキャプション)などを利用して映像区間を選択します。
・音声を考慮した的確な要素画像系列も抽出可能です。

技術解説

大量の蓄積映像の中から目的の番組を見つけ出すには、放送日時や番組タイトルで見当をつけた後、早送りや巻戻しをしながらひとつずつ内容を確認していく必要があります。ここで紹介するのは、番組内容を短くまとめた「番組スポット映像」を自動生成する技術です。番組スポット映像を視聴することで、目的に合致した番組かどうかを素早く判断することができるようになります。

(1)映像区間の選択 動画映像がテレビ番組の場合には、電子番組表(EPG)を用います。EPG には、通常、番組内容を簡単に紹介するテキスト(番組概要文)が含まれており、この番組概要文に対応するシーンを番組映像の映像区間として選択します。番組概要文と番組映像との対応付けには、番組概要文と字幕データ(クローズドキャプション)の類似度を利用します。
電子番組表が存在しない番組については、過去の番組から学習した言語特徴(番組内容を紹介する言い回しなど)や、番組内で表示される文字スーパー(オープンキャプション)などの情報を利用して映像区間を選択します。

(2)カット点を考慮した編集 選択された映像区間については番組概要文などを元に並び替え、順につなぎ合わせることで要約映像を生成します。なお、つなぎ合わせの際は、カメラの切り替え点である「カット点」を考慮して編集点を調整します。(技術カタログ「カット点検出技術」参照)
音声開始のタイミングで映像を抽出することにより、動画から音声を考慮した的確な要素画像系列(スライドショー)を抽出することもできます。

提供可能な技術

・要約映像を自動生成する技術
・要約映像に採用する映像区間を自動検出する技術
・映像から文字スーパー領域を自動検出する技術
・音声を考慮した要素画像抽出技術

関連特許

特許第4456573 号 映像抽出装置及び映像抽出プログラム
特許第4695582 号 映像抽出装置及び映像抽出プログラム
特許第5503507 号 文字領域検出装置およびそのプログラム
特許第5537285 号 要約映像生成装置及び要約映像生成プログラム
特許第4264028 号 要約番組生成装置、及び要約番組生成プログラム
(上記のリンクは開放特許DBにリンクしており、NHKエンジニアリングシステムのWebサイトから離れます)

≪キーワード≫カット検出 / 文字スーパー検出 / 番組スポット映像