音声処理技術

書き起こし支援技術

音声認識技術と組み合わせることによって、記者会見やインタビューなどの取材映像から効率よく書き起こし(文字起こし)を進めるための支援技術です。

【利用分野】
・ 取材映像の書き起こし
・ 対談番組などの字幕制作
・ 講演や会議の議事録作成
・ 映像コンテンツのメタデータ作成・検索システム
・ 音声認識の誤り修正システム

【特  長】
(1) 直感的な操作で書き起こしができます。
(2) テキストを編集すると即座に映像・音声が再生され、修正部分を容易に確認できます。
(3) 複数の制作者が同時に認識結果を参照・修正できます。
(4) 映像素材をシーンなどによって自動分割します。
(5) ブラウザからアクセスするだけで、書き起こし作業が始められます。
73a-1.PNG

【技術解説】
 効率良く書き起こしの制作を支援する技術です。取材してきた映像素材の音声を認識し、その認識結果の誤りを人が容易に修正することができます。長時間におよぶ取材映像から書き起こしたい箇所に簡単にアクセスでき、複数の制作者が同時に認識結果を確認・修正できるインターフェースを開発しました。

(1) 音声認識と組み合わせた書き起こし支援技術
 音声認識結果のテキストデータと、音声データとの時間情報を対応付け、取材してきた映像素材の書き起こし対象箇所を素早く再生し、簡易な操作で音声認識の誤りを修正することを可能としています。

(2) 書き起こしインターフェース
①操作手順の省力化
 テキストの編集操作に映像・音声の再生を連動させることで、操作手順を少なくして作業の負荷を減らします。また保存の操作も自動化しています。
②音声とテキストとの同期
 再生を開始したい箇所を単語単位に選択でき、再生位置をハイライト表示して音声とテキストとの対応を明確にしています。
③認識結果の自動分割
 認識結果を映像素材のシーンなどによって自動に分割し、分割された項目にサムネイルとキーワードを付与しています。それによって素材内容の概要を把握することができるとともに、書き起こしたい箇所へ簡単にアクセスすることができます。
④Web アプリケーション
 Web アプリケーションで構成されているため、OS 専用アプリのインストールやアップデート作業などは必要ありません。ブラウザからアクセスするだけで、書き起こし作業が開始できます。
73a-2.PNG

【提供可能な技術】
・ 音声認識結果を効率よく修正するための支援技術
・ 書き起こしインターフェースのためのソフトウエア

【関連特許】
・ 特開2018-084627 言語モデル学習装置およびそのプログラム


≪キーワード≫ Web アプリケーション / 文字起こし / 書き起こし / 編集 / 音声認識