3次元ビデオ世界の開拓 (2004年10月22日)
松山 隆司 京都大学大学院情報学研究科
1.3次元ビデオ映像とは
世界史を紐解くと、人類の文化・文明が記録・伝達メディアの開拓によって大きく進展したことが分かる。古くは石板、パピルス、紙、15世紀のグーテンベルグの印刷装置による書籍、新聞、写真へとメディア世界が広がり、20世紀には電子技術によるラジオ・テレビ放送、テープレコーダ・ビデオによる記録、そして最近ではディジタル・ネットワーク技術によるWWWへと発展し、今ではだれもがマルチメディアを使った国際的情報発信が可能となった。
一方、記録・伝達される内容(コンテンツ)としては、文字や図形から、1次元の音声・音楽、2次元の画像・映像を経て最近ではCGによる3次元アニメーションへと発展してきた。
では、21世紀におけるメディアにはどういった発展が期待され、それが文化・文明をどのように変えるのであろうか。その答えの1つとして考えられるのが3次元ビデオ映像である。
3次元ビデオ映像は、 CGによる仮想的・人工的な3次元アニメーションではなく、ダンスやスポーツをする人間、自然界の動物などの生の姿・形・色の時間的変化を3次元的にそのまま記録した実写立体ビデオ映像で、実世界における対象の振る舞い・動作を余すところなく記録した究極の映像メディアである。
3次元ビデオ映像は、ラジオやテレビが人類のあらゆる活動に与えた影響と同じあるいはそれ以上のものをもたらすのではないかと考えている。具体的には、3次元ビデオ映像を利用することによって、以下のような応用システムが実現できる。
- 人間国宝やオリンピック選手の動作をそのまま記録再現できる身体技能・芸能ディジタルアーカイブ(今しか撮れない動作を完全に記録し、後世に伝える。)
- 動物のありのままの生態を多角的に観察できる3次元ビデオ映像DVD図鑑
- 自分の動作と手本とを3次元的に比較しながらトレーニングできるリハビリ、スポーツ練習システム(タイガー・ウッズと自分のゴルフスウィングを比較する。)
- ディジタルテレビ放送や広帯域インターネットをインフラとして使った3次元テレビ放送
- 遠隔地の雰囲気をそのまま伝えることができる高臨場感遠隔会議・講義・実験システム
これらの例や3次元ビデオ映像という名前からイメージされるのは映像が飛び出して見える立体映像であり、3次元ビデオ映像は立体ディスプレイ用の特殊なコンテンツだと思われるかもしれないが、通常の2次元のディスプレイを使った場合でも、3次元ビデオ映像は映像の楽しみ方に革新的変化をもたらす。具体的には、3次元ビデオ映像を使えば、視聴者が映像を鑑賞する位置や方向、視野をその場でインタラクティブに変えることができる。つまり、大相撲の放送が3次元ビデオ映像を使って行われているとすると、チャンネルはすべて同じであるにも関わらず、ある家ではかぶりつきからある力士をズームアップした映像が、別の家庭では土俵全体の様子がテレビに映し出されているといったことができる。このように、3次元ビデオ映像の持つ大きな特徴は、視聴者がその場でインタラクティブに映像と楽しめることにあり、映像の楽しみ方に大きな変革をもたらすものと考えられる。インタラクティブ映像の効果は、テレビゲームによってテレビ番組を見る時間が減ったことからも明らかである。
2.3次元ビデオ映像の撮影・編集法
言葉だけで3次元ビデオ映像とはどのようなものであるかのイメージを持つのはむずかしいと思われるので、ここでは我々がこれまでに得た研究成果を簡単に紹介する。(ただ、紙の上での説明では3次元ビデオ映像を実感して頂くのはむずかしいと思われ、興味をお持ちの方は研究室に来ていただければデモをお見せします。)
現在稼働中の実時間3次元ビデオ撮影システムは,人物の周囲に配置された12台のビデオカメラと16台のPCを持つPCクラスタから構成されている(図1)。カメラには首振り機能があり、移動する対象を実時間で追跡してその映像を撮影することが可能である。また、PCは高速の(1.25Gbit/sec)ネットワークで結ばれており、PCクラスタを1つの並列計算機として利用することによって実時間で3次元形状復元計算を行うことができる。
現在のシステムでは以下の方法で3次元ビデオ映像の撮影を行っている。
- 異なった位置から撮影されたビデオフレーム画像(図2最上段)から対象のシルエットを抽出する(図2上から2段目)。
- 各カメラの投影中心(図3のPA、PB)を中心としてシルエットを3次元空間に逆投影し(図3左)、得られた視体積の重なった部分によって対象形状の3次元ボクセル表現(小さな立方体の集まりとして人物の3次元形状を表す)を求める(図3右)。
- 視体積交差法で得られたボクセルデータ(図2上から3段目)の表面に小さな3角形の面を張り、対象の表面形状を求める(図2下から2段目)。
- 各面上のテクスチャや色は多数のカメラによって写されているため、その面が最もよく写っている画像を選び、その画像上のテクスチャ・色を面に張る(図2最下段)。
- 以上の処理で、1フレームの3次元ビデオ映像が生成される。動画を作るには(1)〜(4)の処理を繰り返えせばよい。
従来のビデオ映像と異なり,3次元ビデオ映像は3次元の形や運動情報を持っているため、その編集は3次元空間において行われる。すなわち、図4のような対象、背景、仮想カメラからなる3次元シーンを設け、その中で対象の移動・拡大縮小・コピー、背景の拡大縮小・移動,カメラの移動・ズームなどを行い、仮想カメラで撮られた映像を編集結果として出力・表示する。仮想カメラとしてステレオカメラを使い3次元ディスプレイに表示すれば3次元映像をそのまま見ることもできる。
こうした方法で、360°の全周パノラマ画像と撮影した人物の3次元ビデオ映像を編集した結果を図5に示す。
3.今後の展望
現在のシステムで撮影できる3次元ビデオ映像は、空間解像度が1cm x 1cm x 1cm、かつカメラが小型のアナログビデオカメラであるため元映像の画質も十分とは言えないのが現状であり、こうした技術的課題の解決を図るととともに、従来の2次元ビデオ映像と比べ桁違いに大量となるデータの圧縮・符号化法の考案が今後の課題である。
一方、3次元ビデオ映像については、国際的にも関心が高まり、現在我々の提案を受けてMPEG会議においてその符号化、標準化についての検討が始まっている。
3次元ビデオ映像の利用およびその標準化はわが国が世界に先駆けて進めているもので、産官学の連携によって21世紀の新たなメディアテクノロジーの開拓を進めて行きたいと考えている。