SIGGRAPH2019報告

2019年9月27日 17:22

株式会社ACESで、Human Sensingに関するリサーチャーをしております荒川です。2019/7/26-8/1にロサンゼルスで開かれたSIGGRAPH2019に参加してきましたので、本記事ではそのレポートをします。

SIGGRAPH概要

SIGGRAPH（シーグラフ、Special Interest Group on Computer GRAPHics）とは、アメリカコンピュータ学会におけるコンピュータグラフィックス (CG) を扱うSIG(分科会)であり、また同分科会が主催する国際会議・展覧会の一つである“International Conference and Exhibition on Computer Graphics and Interactive Techniques”の通称。　　　　　　wikipediaより

2019年はロサンゼルスのコンベンションセンターで開催されました。私は研究室の先輩がEmerging Technologyに出したデモのお手伝いで参加し、展示をメインで行いつつ休憩時間などにセッションを聞きました。会場はデモが満載で、また参加者全員で最新のCG映像を鑑賞するElectronic Theaterなどがあり、お祭り気分でした。子供を連れてくる家族もちらほらいて(将来彼らはどうなるのだろう...)、Techinical PaperはCG系が多め、デモ展示はロボやVR体験などもありました。

スケジュール

以下の日程で参加しました。

7/26-27: 展示準備
7/28: 展示, Session(Perception of Virtual Characters), Technical Papers Fast Forward
7/29: 展示, Session(Assisting the world's aging and disabled population through computational methods, The Ethical and Privacy Implications of Mixed Reality, Virtual Beings World), Electronic Theater, Reception
7/30: 展示, Session(Activating the Body, VR and Education), Real-Time Live!
7/31: 展示, Session(Adaptive Techonologies, VR Theater, Introduction to RealityKit)
8/1: 展示, Session(Perception and Illusion)
8/2: 観光(Sony Pictures, UCLA, Santa Monica Beach)

展示内容

稲見檜山研究室として参加した私たちの展示内容は、PickHitsという、投げた物体が目標の位置に正しく到達するようなデバイスでした。(P ickHits: hitting experience generation with throwing motion via a handheld mechanical device)。原理はシンプルで、アンダースローの腕の動きをモデル化し、最適なリリースタイミングを計算し、そのタイミングでストッパーが外れ物体が射出される機構になっています。モーションキャプチャで300Hz、ジャイロセンサで2000Hzでサンプリングします。システム全体で遅延が50msほどあるので、そこも含めた軌道推定を行う必要があします。体感としては7割くらいの人が正しく目標の場所へボールを飛ばせていました。

気になったSession

Perception of Virtual Characters
どんなアバターの様子に人がどう感じるのかという心理学的なお話でした。
一概に言えませんが、面白いと思った発見は以下の2つです。
① アバターがリアルな見た目かキャラっぽい見た目かは、相手ユーザーの意思決定に影響を及ぼさず、挙動や様子がその因子となる。
② boneだけでジェンダーがわかる(女性っぽい歩き方とか)。でも見た目が男性で歩き方が女性みたいなアバターでは女性っぽさは気づかれない。
前者に関する発見は挙動解析の知見にも活かせそうですね。Computationalにいろんなアバターを作れて実験ができるのが面白いなと感じました。

The Ethical and Privacy Implications of Mixed Reality
MRが広まっていく世界でどのような倫理的な問題が生じるかについての話。あまり考えたことのないテーマだったので新鮮でした。焦点は、スキャンする空間は誰のものなのか、何をプライバシーとするのかというところです。エッジコンピューティングでサーバーに映像をあげないための工夫というのも言及されていました。

Nvidia AI Playground (from Real-Time Live!)
segmentation mapからphotorealisticな画像を生成するGauGANのデモで、とても綺麗な絵を簡単に描いていて感動しました。
ちなみにこちらから体験できます。*左が入力、右が出力

Perception and Illusion
VRや光学技術を使った錯覚。まっすぐ歩いていると錯覚させるやつはだんだんとその半径が縮んでいるというのが定量的に出ており、面白いと思いました。落合研のAI Plateを使った透明錯視は、スケーラブルでいいなと感じました。

気になったTechnical Paper

385本中111本が採択(28.8%)されました。その中から、Fast Forwarding(30s/paper)を聴いて気になった論文のメモ+いくつか論文を読んだものを以下に簡単にまとめています。Pure CG系少なめ、問題設計が面白かったり、インタラクション系が多めです。ちなみにCGやDL系はDeNAのSIGGRAPH2019 Reportが詳しいので興味がある方はそちらも合わせてご覧いただければと思います。

Deformation Capture via Soft and Stretchable Sensor Arrays

肘などの3D形状変化を計測するための柔らかく装着可能なデバイスを安価に作るハードからソフトまでのパイプラインを提案。センサは複数層の静電容量レイヤ、アルゴリズムはDNNによるregression。

Interactive Hand Pose Estimation Using a Stretch-Sensing Soft Glove

上の論文と同様なことを手の形状に限って行なっている。5層の静電容量シリコンセンサから得られるデータに対してDNNによるregression。

Learning to Fly: Computational Controller Design for Hybrid UAVs With Reinforcement Learning

Hybrid UAV(固定された羽のペアにマルチコプターをつけたもの)をデザインすると、シミュレーター上で強化学習を行い、作成した飛翔体が飛行できるフレームワークを提案。PID制御に着想を得て、状態変数にError Integralなるものを導入したのがユニークで、効果的な学習を行なった。

LiveCap: Real-Time Human Performance Capture From Monocular Video

初となる、単眼カメラによるリアルタイム(服の変形などを含んだ)3Dパフォーマンス推定を提案。前処理時にビデオ(約70フレーム)からアクターRigを生成し、持っておく。推論時は、まず画像からポーズ推定をし、そのポーズとアクターRigを元に非剛体変形の推定を行う。後者の最適化はGauss-Newton。パイプライン処理で25fps。

Visual Knitting Machine Programming

3Dメッシュ構造を入力すると、自動で編み物マシーンが作成してくれるためのビジュアルプログラミングインターフェースを提案。糸の幾何構造・依存性・各面の性質を考慮した augmented stitch mesh を自動生成するところがコア。

Computational Peeling Art Design

理想の形状に柑橘類の皮をむくための方法を提案。3D球を展開するのではなく、2Dをたたみ込んで3D球にするという流れのアルゴリズム。たたみ込めないような形状は適宜修正されるがユーザーの意図と違った展開になる場合もある。インタラクティブ性などは今後。

Text-Based Editing of Talking-Head Video

字幕を変更するだけでビデオ中の人の顔を自然に変形するツールの提案。音素と頭モデルの対応からパラメトリックモデルを構成し、変更後の音素に近いシーンの頭モデルをブレンドする手法。
1.1章がEthical Considerationになっているのは興味深い。これと声質変換・TTSを組み合わせたらfake newsばかりだ。

Neural Volumes: Learning Dynamic Renderable Volumes From Images

マルチビューの2D画像から3Dオブジェクトを復元するencoder-decoderモデルと微分可能なレイマーチング手法を組み合わせることで、end-to-endで学習可能なダイナミックレンダリング手法の提案。encoder-decoderモデル採用は、潜在空間を動くことで、多彩なビューを実現するため。

Multi-View Relighting Using a Geometry-Aware Network

屋外の画像に対し、光の当たり方を操作できる手法を提案。まずマルチビューの2D画像から大雑把な地理形状を復元する。ユーザーが太陽の位置と曇り度合いを入力すると、referenceとtargetのRGB shadow画像が地理形状から抽出され、NNがそれをrefineし、その出力やreference画像をさらにNNに通すという多段構造。リアルな学習データはシミュレーター内で合成。

Vidgets: Modular Mechanical Widgets for Mobile Devices

スマホに装着可能で、インタラクションを拡張するボタンやダイアルになるwidgetを提案。装着したwidgetを触った際のスマホの加速度センサーの値を機械学習で分類。ただボタンつくって加速度を機械学習したのではなく、物理モデルに基づいて生じる力をシミュレートし、widgetのデザインプロセスに組み込んだ。スマホに対し8箇所装着可能な場所を作り、高い精度で分類できることを示した。

好き。

Puppet Master: Robotic Animation of Marionettes

組み合わせ振り子という複雑なシステムである人形劇をロボットがコントロールするための手法を提案。マリオネットのダイナミクスと、ロボットの運動を考慮した予測モデルを考案、複数の人形とターゲット動作で評価した。
モデリングの部分は読めてないけど、とにかくアウトプットの印象が強い。順運動の時間微分を計算し、制御に組み込んでいるのがミソ?

Interactive and Automatic Navigation for 360 Video Playback

360度映像をNormal Field-of-View (NFoV) で再生する際に、もっとも注目を集めそうなシーンや、インタラクティブにユーザーの嗜好を反映したカメラパスを生成する手法を提案。前処理ではまずオプティカルフロー計算、それに基づきサリエンシー推定、オンライン処理でパス生成。パス生成は3段階で、サリエンシー最適化、FoV-aware適応、スムージングの順番。ユーザースタディで効果検証。動画サリエンシーのアプリケーションとしてうまい。

Wave-Based Non-Line-of-Sight Imaging Using Fast f-k Migration

カメラの視野の外にある物体をイメージングする波動画像形成モデルを提案。レーザー光を壁に当て、散乱した光が反射して帰ってくるまでの時間を計測する。ガルバノミラーで角度調節する。速度は4fps程度。RF-basedで壁の奥を透視する手法を思い出した。

＊＊＊

最後に、株式会社ACESでは、Deep Learningを用いた画像認識技術を中心に、APIによるアルゴリズムパッケージの提供や、共同研究開発を行なっています。特に、ヒトの認識・解析に強みを持って研究開発を行っておりますので、ご興味のある方は、ぜひお問い合わせください！【詳細・お問い合わせはこちら↓】

◆画像認識アルゴリズム「SHARON」についてヒトの行動や感情の認識、モノの検知などを実現する画像認識アルゴリズムを開発しています。スポーツにおけるパフォーマンス分析やマーケティングにおけるヒトの心の動きの可視化、ストレスなどの可視化による健康状態の管理を始めとするAIアルゴリズムを提供しています。