MIRU2023参加レポート
こんにちは、DX推進室の玄元です。 2023年7月25日(火)から7月28日(金)にかけて、画像の認識・理解シンポジウム MIRU2023に参加しました。 個々の研究にフォーカスすると内容が重めになってしまいますし、技術の話をここで書けないのが大変心苦しいのですが、この記事では比較的イメージがしやすいデモや研究発表に限定して報告しようと思います。
目次
MIRU2023の概要
MIRUとはMeeting on Image Recognition and Understandingの略称で、画像の認識・理解についてのシンポジウムです。 MIRU2023では昨今の技術の発展に伴い、ニューラルネットワークを用いた深層学習(ディープラーニング)の研究が多く発表されています。
2023年の今回はアクトシティ浜松にてオンラインとオフラインのハイブリッド形式で開催され、1438名の方が参加されたそうです。 昨年に引き続き現地参加も可能となっており、活気にあふれていました。
デモ展示
MIRU2023では実機を用いたデモ発表が10件あり、実際に展示が行われていました。その中で目に留まったものを紹介します。
画像認識に関する簡易コンサルティングシステム
河合 諒(NEC)、大見 一樹(名古屋工業大学)、吉田 登、劉 健全(NEC)
深層学習を用いた画像認識技術が発展してきてはいるものの、それらの画像認識エンジンを利用するためにはある程度の専門知識が必要であるという課題があります。 例えば、人間を対象とする認識には顔認識や姿勢推定などがあり、前者では顔が大きく映っている必要があるのに対し、後者では大きすぎると逆に精度が下がる場合があります。 また、画像認識は入力される画像の解像度や対象物体の遮蔽の度合いによって検出精度は大きく左右されます。
こちらの研究はタスクの判定に関する簡易的なコンサルティングシステムでした。 システム構成としては二段階になっていて、はじめに機械学習モデルを用いて、入力された画像に対して適切なタスクであるかの二値分類を行います。 次に、あるタスクにおいて適していないと判定された画像に関しては、撮影条件をどのようにすれば認識できるようになるのか提案を行うといったものです。 ※ここでいうタスクとは顔認識、姿勢推定、物体検出など解こうとしている問題のことを表しています。
ドメイン特有の知識が必要になるタスクにおいては技術者であってもデータに関する知見が乏しい場合がありますし、利用者の中にはデータだけはあるけど、その活用方法がわからないという方もいらっしゃると思います。 そういった利用者の目線に立ったシステムの構築といった観点で興味深かったです。
HMNetを用いたイベントデータからのリアルタイム画像認識
坂口翼、濱口竜平、大西生輝、櫻田健(AIST)
こちらのデモではイベントカメラで取得したデータからリアルタイムに物体検出を行うシステムが展示されていました。 イベントカメラとは輝度値の変換のみを非同期に記録するセンサーで、通常のカメラと比較して低遅延、高時間分解能、さらには低消費電力であるという利点があります。
画像分野で近年提案されている手法の多くは計算性能の高いサーバー環境で評価されており、実運用を想定した場合には組み込み環境下での性能が重要です。 そのため、イベントデータの認識手法であるHMNet[1]という深層学習モデルを最適化し、NVIDIA社のJetsonというGPUを搭載した手のひらサイズの小型コンピュータに組み込んだそうです。 筆者がみたところJetsonファミリーの中でも上位機種の位置づけであるXavierが使用されていました。
実際に展示ブースにあったJetsonに取り付けられたイベントカメラの前に立って手を振ったりポーズをとったりしましたが、リアルタイムで認識されました。 筆者もJetsonファミリーの中でエントリー機種であるJetson Nanoを持っているので、個人が購入できる価格帯であればイベントカメラを購入して遊んでみたくなりました。
研究発表
特徴の変換に基づく選択的忘却
後藤 優太(東京理科大)、柴田剛志、木村昭悟(NTT)、入江豪(東京理科大)
こちらの研究は、ニーモニックコードと呼ばれる特殊なコードを画像認識モデルが内部で扱う特徴の部分に埋め込むことにより、「記憶し続けるクラスと忘却し続けるクラスを選択できる」継続学習を提案するものでした。 記憶し続ける必要のないクラスのみを選んで忘れることのできる継続学習方法であるLearning with Selective Forgetting(LSF)[2]を拡張した手法に位置付けられます。
継続学習とは、過去にモデルが学習したクラスに対する精度を低下させることなく、新たなクラスに対して適応させることを実現する学習問題です。
例えば、犬と猫を分類するモデルを学習したとします。そのあとに自動車や船といった別の新たなクラスを学習させた時、モデルが過去に学習した犬と猫のクラスを忘れてしまうという問題が生じることがあります。 これは破滅的忘却(catastrophic forgetting)と呼ばれ、問題視されています。 画像認識モデルは商品認識アプリや顔認証入館システムなどに応用されており、基本的には過去に学習したものを忘れるという現象は大きな問題となります。
しかし、プライバシー保護やデータ漏洩の観点からみると、学習した全てのクラスの認識精度を維持し続けることは必ずしも好ましくありません。
入館システムの例では、離職者が存在する場合に不要な個人情報の保持やModel Inversion Attack(MIA)[3]による情報漏洩のリスクにつながってしまいます。 MIAとは攻撃対象のモデルからその訓練データを復元する攻撃のことです。
筆者は大学院ではCycleGANというGANの一種である深層学習モデルを用いて研究[4]を行っていたこともあり、継続学習は以前から注目していました。しかし、実運用を考えると「忘れる」ということが重要である場合もあるということを再認識させられました。
ポスター発表
LanesPose: 骨格推定によるレーン検出
玄元奏(筆者)、飯田啄巳、小西嘉典(センスタイムジャパン)
手前味噌ですが、私が発表した研究となっております。
レーン検出とは画像中の白線の形状や位置を検出する技術であり、自動運転システムにおいて自車の位置理解、走行ルートの決定を行うための重要な要素です。
実環境においては、逆光や渋滞などのオクルージョン(車による遮蔽)、高架下の影といったレーンが完全には見えない状況があります。
このような状況下では、レーン情報の欠落に起因してレーン検出の精度が低くなるという課題が知られています。
従来の手法では一本一本のレーンを独立して扱っていたのですが、隣接したレーンとの接続関係を考慮することによって、オクルージョン状況下においても頑健に検出できるようになることを目指したものとなっています。
手法の中身に関しては別で解説記事[5]を書かせていただいておりますので、気になる方は読んでいただければ幸いです。「LanesPose」も筆者の名前もユニークなものですので、検索していただいても該当記事がヒットすると思います。
参考文献
[1]
Ryuhei Hamaguchi, Yasutaka Furukawa, M. O. K. S.: Hierarchical Neural Memory Network for Low Latency Event Processing, CVPR (2023).
[2]
Shibata, T., Irie, G., Ikami, D. and Mitsuzumi, Y.: Learning with Selective Forgetting, In Proc. IJCAI (2021).
[3]
Fredrikson, M., Jha, S. and Ristenpart, T.: Model inversion attacks that exploit confidence information and basic countermeasures, In Proc. CCS (2015).
[4]
https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202302242589909742 (2023/08/04確認)
[5]
https://tech.sensetime.jp/?p=2425 (2023/08/04確認)
最後に
クロスキャットでは、AIに関するコンサルティングサービスとPoCのお手伝いを行うサービスを行っております。 こういうことってできないの?のようなささいなご相談からでも構いませんので、ご興味のある方はぜひご利用ください。
解析人材育成
収集
CC-BizMate
勤怠管理クラウドサービスCC-BizMateは出退勤管理・勤怠管理・労務管理・工数管理・プロジェクト管理・在宅勤務・テレワーク勤務など「人事総務部門に寄り添う」サービスです!
CC-Smart
CC-Smartは、カラ予約の防止、議事録の録音、きめ細やかな通知機能など「会議のムダ」 「会議室のムダ」を省くことで生産性向上をサポートする会議予約システムです。
WebNESTEE STAMP
WebNESTEE STAMPは、書式にこだわらない出社せずにハンコ付き書類が作れるサービスです。事前に書式を準備する必要がなく、Excel、PDF、画像データを指定経路に回覧し、承認ができます。手続きや承認に時間や余計な手間をかけず、本来の仕事に集中できます。
groWiz
MS PowerPlatformサービスを用いたgroWizスタートアップ、アイデアサポート、オーダーメイド、テクニカルサポート等、ニーズに合わせたご提案をいたします。
OCVS構築支援サービス
クラウド環境向けに大幅な設計変更をすることなくクラウドリフトを実現し、Oracle Cloud Infrastructure上でこれまでと同じ操作方法のまま VMware 製品のツールを利用することができます。オンプレミスで運用しているVMwareの仮想サーバーをそのままOracle Cloud環境へ移行することも可能です。
活用・分析
CC-Dash AI
CC-Dashは、AI技術を活用したコンサルティングサービスとPoCサービスをご提供しています。
お客様のビジネス課題を解決するために、専門の技術チームがヒアリングからPoCまでの一連のプロセスをサポートいたします。
小売業向け CC-Dash AI
数多くのデータに数理的な処理を用いることで、将来の需要量、在庫量の予測が可能です。
小売業にAIを導入することにより、労働者不足問題の解消、属人化の防止、適正な在庫管理などに役立てられます。
Data Knowledge
Data Knowledgeは、30年に渡り使用されている国産のBIツールです。多彩な分析レポートで「経営の見える化」を促進し、分析ノウハウ共有機能で全社の分析レベルをアップ。データ・リテラシーの向上につながります。
BIスターターパック
by Tableau / by Oracle Analytics Cloud
Tableau は、クラウドベースの分析プラットフォームです。誰とでもデータからの発見を共有することができます。同僚やお客様を Tableau Cloud に招待し、インタラクティブなビジュアライゼーションと正確なデータを共有すれば、潜んでいるチャンスを探し出すこともできます。
ADB移行支援サービス
Oracle Autonomous Database(ADB)とはオラクル社の提供している高性能かつ運用負荷を限りなく軽減する自律型のデータベース・クラウド・サービスです。移行をすることで、利用時間に応じた課金体系で優れたコスト・パフォーマンスを実現します。
保守
CC-Dashの保守サービス
BI導入後、ツールを最大限に活用することをサポートします。約25年の実績で安心と信頼の“保守サービス”。
お客様のビジネス状況に応じたQA対応~システム運用まで幅広くトータルサポートを提供し、社内のエンジニアの稼働時間を年間330時間削減!
BIサポート定額オプションサービス
せっかくBIツールを導入してもうまく活用できない。そんな方のためにユーザー利用状況分析レポート、システムヘルスチェックレポートなどを通して、安定したシステム活用を目指すサービスです