研究内容

Main Page >> 研究内容

Networked Dynamical System とその制御

人や魚,鳥などの生物(もしくはニューロンなどの構成要素),ロボットや自律管理システムなどの人工的な制御システム(もしくはその内部モジュール)は,個々にダイナミクスを持つ系として表現できる.これら個々の系が互いに結合し,情報を交換しながら相互作用するとき,全体では,ダイナミクスを持つ要素がネットワークを構成する複雑な系となり,興味深い振る舞いを示すことが知られている.本研究では,このような Networked Dynamical System の振る舞いを単に解析するだけではなく,

  1. 結合系(自律分散系)の振る舞いそのものを制御できないか(ドライビングノードを設ける,入力をブロードキャストする,トポロジを動的に変化させるなど様々な方法がある)
  2. 観測データからダイナミクスやネットワークトポロジを推定できないか
  3. 認識や人のインタラクションのモデル化に応用できないか

といった幅広い問題を扱う.パターン認識,制御理論,統計的機械学習,コンピュータビジョン,代数グラフ理論,連続/離散最適化をはじめとする様々な手法を用いる.

相互結合系(マルチエージェント)の外部制御
自律移動ロボットや無人飛行機のフォーメーションといった群行動制御において,各個体が周囲の隣接した個体の情報を局所的に利用するだけで実現できる.では,集団全体の行動は外部からいかに効率的に制御できるか?一部の個体群だけに外部入力を与え,群全体を制御するLeader-follower型の制御の枠組みについて,効率の良さを定義する新たな指標〜Leader-followerネットワークのManipulability〜を導入しながら研究を行っている.(本課題はJSPS海外特別研究員として,ジョージア工科大学 Magnus Egerstedt教授と行っている共同研究であり,詳細は今後順次up予定)
ハイブリッドシステムの相互結合によるターンテイキングモデル
人の対話の一側面は,情報共有や推薦,会話の持続や円滑性といった様々な目標に基づいて参与者それぞれが状態発展や出力を行う相互作用プロセスととらえることができよう.これをハイブリッドシステムの結合系によってモデル化し,ターンテイキングの自律発生といった現象について研究を行っている.
自律システムの相互結合による情報統合と動作認識 (詳細)
力学系の状態遷移に基づき認識を行うモデルを相互に結合し,状態レベルで常に情報補完を行う仕組みを考案することで,一時的な遮蔽にロバストな多視点動作認識を実現した.

知能システムの時間感覚

リズムに合わせる,タイミングを取る,といった時間感覚が進化圧に耐えて人に備わっているのはなぜだろう?

ひとつの理由としては,高度なタイミング制御が,時々刻々変化する動的な環境を生き抜く上で不可欠であったことがあろう.つまり,視覚や聴覚,触覚などの知覚器官からの信号を通じて外界の変化や脅威を認識・察知し,身体の各部位を適切なタイミングで制御・調整することで柔軟な行動を行う能力は生存にとって有利に働く.特に人のそれは,論理的な判断と身体性とが,階層的な注意の切り替えを伴いつつ有機的に結びつけられることで,非常に自由度の高い状況認識や行動制御を可能にしている.

さらに人の知能を特徴付けるのは,われわれはタイミングを,物を一緒に運ぶといった共同作業や,対話をはじめとしたコミュニケーション,音楽セッションなど,複数人のインタラクション(共同行為)において意図的もしくは無意識的に駆使している点であろう.これはしばしば「間」や「間合い」と呼ばれ,10から100ミリ秒オーダーでのタイミング調整が,正確な相互理解や協調的問題解決に大きな役割を果たしている.

本研究では,知能をとらえる軸のひとつとしてこの「高い自由度での高度なタイミング認識・調整能力」に注目する.そして,

  1. 単一個体の知覚-行動系
  2. 個体間のインタラクション

の両面から「タイミング」を工学的に扱う枠組みを考案することで,動的な実環境における柔軟な行動生成や,人との自然なインタラクションが可能な「時間感覚を備えた知能システム」の実現を目指す. さらには,人が時間を全順序的に認識することの有効性や必然性,主観的時間と物理的時間との係わり合いといった「時間感覚」に構成論的観点から迫りたい.

その具体的アプローチとして,パターン認識や機械学習,コンピュータビジョン,制御理論,ヒューマンコミュニケーションなどの学際的観点から,(1)タイミングを扱うための数理モデル構築(2)対話に実際に現れるタイミングの分析(3)タイミングや「間」に着目した実世界インタラクションシステムのデザインに関する研究に取り組んでいる.

1. タイミングを工学的に扱うための基盤技術

「タイミング」はどのように工学的に扱うことができるだろうか?これまでに同期現象をはじめ,タイミングに関する様々な研究が行われてきた.しかし,物理的信号を対象としてタイミングを扱うことは実は非常に困難な課題である. 観測信号の中からタイミングの構造を拾い出そうと思えばイベントの認識が必要となり,信号をいかに分節化するかという本質的問題に直面する.さらに,入力信号に対し最適なタイミングで行動を生成・制御するには,離散・連続変数が混在したオンラインでの最適化が必要となる.

そこで本研究では,知覚と行動の両機能を,力学系に基づき統一的に扱うアプローチを取る.具体的には,計算機科学や制御理論の分野で「ハイブリッドシステム(ハイブリッドダイナミカルシステム)」と呼ばれる数理モデルを様々な観測・制御信号に適用することで,タイミングの学習・解析やそれに基づく認識・制御技術を開発している.(参考解説論文 [PDF]にて下記の一部を解説)

ハイブリッドシステムの数理モデル

ハイブリッドシステムのモデル (詳細)
身体の力学的特性や心的・内的状態が絡む人の行動,衝突など複数の力学系が切り替わる複雑な事象は,(物理的時間に沿った状態発展が微分方程式系で記述される)力学系と(記号の順序や論理的関係の記述に基づく)離散事象系とが混在した系,すなわちハイブリッドシステムととらえることができる.
ハイブリッドシステム (switched-mode hybrid dynamical system) の同定法 (詳細)
具体的なハイブリッドシステムのモデルとして,複数の微分方程式(モード)をオートマトンで切り替えるようなクラスの数理モデルを利用する.このとき,各種センサから計測された信号や特徴系列から,モード集合とそれらを切り替えるオートマトンをボトムアップに自動学習するシステム同定手法を考案した.

タイミング解析に基づく認識

表情譜 (詳細)
口元や目元といった顔の各部位における動きをそれぞれハイブリッドシステムとして学習することで,各部位の動きを分節化し,表情をちょうど楽譜のように記述することができる.これを表情譜と呼ぶことにする.表情譜を解析することで,笑いが意図的か自発的かといったわずかな表情の違いも認識できる.
話者検出 (詳細)
音声および口元の動きをそれぞれハイブリッドシステムでモデル化しておくことで,たとえば破裂音では,母音に比べて音と口唇運動がより同期しやすいといった,異なるメディア信号間の同期構造を学習できる.これにより,複数人の中から発話者を精度よく検出できる.

タイミングに基づくメディア変換

音声を入力とした口元の映像生成(リップシンク) (詳細)
ハイブリッドシステムは信号の分節化だけでなく生成にも利用できる.そこで,一方のハイブリッドシステムのモード切り替えタイミングに基づき,別のハイブリッドシステムのモード切り替えタイミングを最適化する手法を考案し,その応用として,入力された音声に合った口元の動画像生成を実現した.
雑音環境下での音声推定 (詳細)
上述の手法を逆方向に利用することで,口元の動きから音声の候補を(リップリーディングのように)生成できる.生成されたこれらの候補と入力音声との間で整合性を評価することで,雑音が除去されたクリーン音声を推定する雑音抑制手法について研究を行っている.

タイミングに基づく信号生成・制御法

タイミング調整に基づくダイナミックな動作生成
数リンク程度の多関節ロボットに対し,各関節におけるトルク投入タイミングを調整することで,ジャンプや宙返りといったダイナミックな行動生成,接触等のイベントに応じた歩行生成などの研究を行っている.
動画像における時空間ダイナミクスのモデル化
画像の各局所領域を線形モード切替系でモデル化し,各領域のモード切替タイミングを大域的なダイナミクスによって制御することで,テクスチャと形状変化を同時に扱いながら複雑な動画像を生成する枠組みを考案した.
直流コンバータの最適スイッチングタイミング制御
直流コンバータのスイッチング回路をハイブリッドシステムとしてモデル化し,電源電圧や負荷の変動に対して安定的に電圧供給を行うための,モード切替タイミング最適化アルゴリズムの研究を行っている.

2. 人の対話におけるタイミングの分析

人が行っているコミュニケーションを記録・分析することで,状況(話題や意図など)に応じて発話や動作がどのように時間調整されるのかといった特性を探る.人の対話は多様であり,対話状況などを限定しない限り有益な知見を得ることは容易ではない.そこで,われわれは演技として効果的に「間」が利用されていると考えられる「話芸」に注目し分析を行った.(参考解説論文 [PDF]

漫才における間合いの分析 (詳細)
ボケ役とツッコミ役における間合いの違いや,発話内容(陳述,肯定的応答,否定的応答,質問といった発語内行為)との関係について分析を行った.
落語における視覚的間合いの分析 (詳細)
時間感覚は,聴覚や視覚といったモダリティとは独立な軸としてとらえられよう.そこで,落語における役柄交替を表す顔向き動作のタイミングと,漫才の発話交替潜時との類似性について分析を行った.

3. タイミングを利用したプロアクティブ・インタラクション・デザイン

ユーザが命令を与えそれに対して反応・応答する「リアクティブな」インタラクションシステムでは,ユーザが指示として与えない限りはシステムには考慮されない.つまり,ユーザ自身が明示的に指示として与えにくい興味や意図,もしくはユーザ自身の中で顕在化していない無意識レベルでの心的状態は切り捨てられてしまう.そこで,システムが能動的にユーザに探りをいれながら,情報提示・提案をしていくプロアクティブなシステムデザインに取り組んでいる.この心的・内的状態を能動的に探る枠組みを,われわれはMind Probingと呼ぶ.(参考解説論文[PDF]にて下記の一部を解説)

提示情報に対する反応を用いた人の状態推定

Gaze Probing (詳細)
十分な視線推定精度が出ない状況下で,ユーザの注視対象を高精度に推定する.そのために提示画像に動きもたせ,その動きと視線との同期構造を通じて注視対象を探る Gaze Probing という手法を提案した.
視線の反応を用いたMind Probing (詳細)
人の心的状態の一部は視線の遷移タイミングに現れるという仮説のもと,画像表示に対する視線の反応潜時を用いて興味対象を探る枠組み(Mind Probingのひとつ)を提案した.
映像視聴時の集中度推定
映像は製作時に注目領域がデザインされており,人の内的状態のプローブ(探針)として利用できる.映像の顕著領域と視線の両ダイナミクスの関係から,視聴者の集中度を探る手法を研究している.

タイミングを考慮した対話インタフェース

Visual Filler (詳細)
テレビ電話等の画面上に視覚的な刺激を提示することで,音声のフィラー(「えーっと」など)と同じ効果を持たせるインタフェースデザインを提案した.伝送遅延による冗長な間合いを(会話者の主観においては)解消させ,発話衝突が少ない円滑な遠隔対話につながる.
聞き上手な留守番電話 (詳細)
メッセージ入力時に適切なタイミングでシステムが相槌を打つことで,独話による違和感を解消し,メッセージの残しやすい,聞き上手な留守番電話のコンセプトを提案した.

研究紹介 (PDF)

大学院紹介時の資料など(最近のものについては近日準備予定)