セミナー

会場&オンライン開催!録画視聴も可能!
2025国際ロボット展併催セミナー

複数感覚情報の
マルチモーダルAIが切り拓く!

器用さを備えるAIロボット最前線

開催主旨

 2020年代以降、AI技術の発展を背景に、ヒューマノイド(人型ロボット)などの研究開発が活発化しています。そして、2025年からは工場や物流現場での運用が試験的に始まっています。

 ヒューマノイドに代表される最近のロボット開発で重要な役割を果たしているのが、ロボット基盤モデル(VLA:Vision-Language-Action)モデルや物理シミュレーションなどです。VLAモデルを搭載したヒューマノイドロボットは、人間が指示したタスクを理解し、周囲の状況を把握しながら適切に行動生成できると期待されています。シミュレーション上での物理エンジンと強化学習によりヒューマノイドの歩行動作を高速に生成した例があり、ロボット制御の学習を飛躍的に高速化かつ高度化しています。

 ただし人間のように、環境に応じた両手操作の動作手順を自動生成し運動制御を行い、組立作業などを行うためには力触覚情報が必要です。例えば触覚情報を用いれば、視覚情報のみでは判断が難しい、対象物の質感に基づく操作判断が可能となり、より柔軟かつ適応性の高いロボット制御が可能となります。さらには、視覚・触覚に加え聴覚など複数感覚を統合処理するマルチモーダルAIの実現につながり、人間のような器用さを備えるロボットの実用化が期待されます。「AIRoA」などでは力触覚情報をいち早く整備・統合することで、わが国のAIロボット基盤のプレゼンス向上をめざしており、これら情報の重要性が増しています。

 本講座では視覚・聴覚・触覚など複数感覚を統合処理するマルチモーダルAIの実現に寄与する最新の研究動向を取り上げ、人間のような器用さを備えるAIロボットの実用化を展望します。

 

 本セミナーは、オンライン配信ツールZoomを用いて実施します。ご視聴方法(参加用URL等)はご登録くださいましたメールにお知らせいたします。また、録画視聴のためのURLは12/8以降にお知らせします。

概要

日時

2025年 12月 4日(木)11:0013:30

※内容を拡大し、実施時間を延長して開催します(国際ロボット展招待状の情報と終了時刻を変更しています)。

※開催当日10:00まで申込受付

会場

東京ビッグサイト 会議棟
1F 102会議室&オンライン(ZOOM)

※会場参加の定員60名まで

受講料

受講料:22,000円(テキスト代、後日の録画視聴、税込、1名分)

※テキストは開催2日前にミーティングリンクととともにPDFでお知らせします。

※録画視聴のURLは12/8以降にお知らせします。会場・リアルタイムでご参加された方、録画視聴のみの方に共通してお知らせします。

 

主催 日刊工業新聞社
問い合わせ先 日刊工業新聞社 西日本支社 総合事業本部 セミナー係
TEL : 06-6946-3382
FAX : 06-6946-3389
E-mail : seminar-osaka@media.nikkan.co.jp

会場アクセス

東京ビッグサイト 会議棟1F 102会議室
東京都江東区有明3-11-1
セミナー会場案内図

このセミナーを申し込む

プログラム


□解説1(11:00~11:50)
「ロボット基盤モデルの現状と課題、発展の方向性」
(講師:東京大学 河原塚 健人 氏)

【概 要】
 ロボットの認識や計画に大規模言語モデル(LLM)や視覚言語モデル(VLM)を活用する取り組みが広がる中、Vision-Language-Action(VLA)モデル(ロボット基盤モデル)が注目を集めています。ロボット基盤モデルでは、従来個別に研究されてきた視覚・言語・行動のデータを大規模に統合することで、多様なタスクをこなし、ロボットの形態や環境などを横断して汎化・学習することをめざしています。これにより、最小限または追加でのタスク固有のデータなしで新たなタスクを実行でき、より柔軟かつスケーラブルなロボット実用化の推進が期待されます。

 解説1では、ロボット基盤モデルの戦略とアーキテクチャや構成要素、モダリティごとの処理技術、学習パラダイムを体系的に解説。また、使用可能なロボットプラットフォームや公開データセット、データ拡張手法、評価ベンチマークなどにも触れます。最後に、現在のロボット基盤モデルの課題に言及しつつ、今後のロボット基盤モデルの発展の方向性を述べます。

□解説2(12:00~12:40)
「触覚情報で表裏を判断しロボットの両手運動を自動生成するAI 技術と生体模倣AI」
(講師:東北大学大学院 林部 充宏 氏)

【概 要】
 ロボットが視覚情報に加え、触覚センサ情報から環境に応じた両手操作の動作手順を自動生成し運動制御するフレームワークを開発。視覚情報のみでは判断が難しいワークの質感に基づく操作判断が可能となり、より柔軟かつ適応性の高いロボット制御の実現が期待されます。さらには、視覚・聴覚・触覚など複数の感覚を統合処理するマルチモーダルAIにつながる成果であり、人間のような器用さを有するロボットの実現が期待されます。

 本講演では開発されたAIフレームワーク「TactileAloha」のならびに視覚―触覚トランスフォーマーの概要を解説するとともに、これらの研究成果による、視覚・聴覚・触覚など複数感覚を統合処理するマルチモーダルAIの実現とモノづくり産業への貢献を展望します。

 また、ロボットシステムはハード的にもソフト的にも生体模倣によって進化を遂げてきたことを踏まえ、生体模倣AIやニューロモーフィックAIに関する研究成果にも触れます。

□解説3(12:40~13:20)
「コンタクトリッチタスクに対応するロボットの教示と動作生成のための機械学習、接触音を用いた高度な力加減」
(講師:埼玉大学 辻 俊明 氏)

【概 要】
 前回2023国際ロボット展では、従来のコンタクトリッチタスクの課題に対し、辻先生が研究されているコンタクトリッチタスクに対応するための力制御およびそれに基づく動作生成の技術についてご紹介しました。その後は、塗装を剥がす研磨ブラシの接触音で力加減を調整するなど音で力覚を代替する研究を実施。平面での剥離音と動作データをロボットに学習させることで、学習させていない曲面も剥離音を頼りに磨くという成果を上げています。

 解説3では前回の内容に加え、接触音の代替による力加減の制御、音情報の融合によるマルチモーダルAI実現への貢献を紹介する。

□質疑応答(13:20~)

このセミナーを申し込む

一覧へ戻る

日刊工業新聞社関連サイト・サービス