NHK技術カタログ

字幕データを利用した情報抽出技術

テレビ番組に表示される字幕(クローズド・キャプション)から特徴的な情報を抽出する技術です。テキストデータを解析することで、映像コンテンツの有効利用ができます。

利用分野

・番組映像コンテンツのシーンごとの検出・分類・分割
・テキストデータから抽出した情報を用いた映像コンテンツの活用

特長

・放送番組の字幕を利用して、番組における被写体や撮影地を自動で抽出することができます。
・報道されるニュースから中継シーンを判別し、分類をすることができます。
・語彙分布が似たシーンを効率的に検出して、映像コンテンツをシーンごとに分割できます。

技術解説

多くのテレビ番組には、視聴者の好みで表示するかしないかの選択が可能な字幕(クローズド・キャプション)が付加されています。本技術は、この字幕のテキストデータを解析することにより、特徴的な情報を抽出する技術です。抽出された情報を用いてシーンの分類、シーンの分割、データベースの作成などを行い、映像コンテンツの有効利用に役立てることができます。

(1) ニュース番組の利用
ニュース番組では、ニューススタジオの映像と中継現場の映像が混在しています。ニュース番組の字幕のテキストデータから、特徴的な言語表現を抜き出して、ニューススタジオ以外の中継シーンを自動で抽出し、その中継シーンが、「現地からの中継区間」、「情報カメラの中継区間」、「空撮区間」のいずれであるかを分類します。さらに、その中継シーンの場所を特定することができます。

(2) 自然・科学番組の利用
自然・科学番組の字幕データを解析して、映像中に被写体が出現するシーンや場所を紹介するシーンなどの特徴的な言語表現を認識することにより、番組で紹介された被写体や撮影地に関する情報を自動で抽出することができます。自動抽出された部分のシーンを集めることで、珍しい動物やめったに行けない場所などを検索できるデータベースを作成することができます。

提供可能な技術

・テキストデータから、定型的な表現を含む文章区間を抽出する技術
・映像中の被写体を特定する技術
・中継シーン判定技術
・映像の撮影地を特定する技術
・映像コンテンツをシーンごとに分割する技術

関連特許

特許第4933118号 文章区間抽出装置及びプログラム
特許第5100162号 テキスト分析装置及びテキスト分析プログラム
特許第5231130号 キーフレーズ抽出装置、シーン分割装置およびプログラム
特許第6069077号 中継区間抽出装置、及びプログラム
(上記のリンクは開放特許DBにリンクしており、NHKエンジニアリングシステムのWebサイトから離れます)

≪キーワード≫シーン分割 / ニュース管理 / 字幕 / 情報分類 / 情報抽出 / 被写体推定