理工学部情報工学科の辻 広生講師が、2025年6月30日から7月2日に福井県国際交流会館で開催された第30回 IEEE/ACIS 国際会議 SNPD2025において、論文 「Enhancing Spatial Reasoning in Multimodal Vision-Language Models via Depth-Aware Feature Integration」を発表し、Best Paper Award(最優秀論文賞)を受賞しました。
今回受賞された論文での発表は、画像と言語を組み合わせて理解する「大規模視覚言語モデル」に、深度(奥行き)情報を追加するモジュール(既存のAIモデルに後から追加できる部品のような仕組み)を新たに導入したものです。従来のモデルは「物体が何か」を識別する力は強い一方で、「どこにあるか」「どれくらい離れているか」といった3次元的な空間関係の把握は苦手でした。
辻講師が開発した手法では、既存のAIに後から付け足せる軽量な拡張モジュール方式(plug-and-play)を採用。これにより、膨大なWeb学習データから得た語彙・概念知識を活かしながら、高精度かつ高速な空間推論を実現しました。その成果として、
・空間関係を認識する能力が従来比で約1.9倍に向上
・学習速度が約1.5倍高速化
と大幅な性能向上を達成しました。これらの結果は、既存の大規模AIモデルがもつ見た目に関する知識と、新たに加えた深度(奥行き)情報の「相乗効果」により得られたものです。
この成果は、拡張現実(AR)ナビゲーション、産業用ロボットの安全な物体把持、医療支援ロボット、空間質問応答システムなど、正確な3次元空間認識とリアルタイム処理が求められる分野への応用が期待されています。事故リスクの低減や業務効率の改善にもつながることから、社会実装への貢献が期待されます。
受賞に際し辻講師は、「このたびは最優秀論文賞を賜り、大変光栄に思います。社会に役立つことを目指して続けてきた研究が実を結び、大変嬉しく思います。選考委員の先生方、査読者の先生方、これまでご指導いただきました先生方に深く感謝申し上げます。今回の受賞を励みに、今後も一層研究に邁進し、社会の発展に寄与する研究成果を挙げられるよう努めて参ります。」とコメントを残しました。
<研究者情報>
理工学部 情報工学科:辻 広生
(https://www.gyoseki.otemon.ac.jp/oguhp/KgApp?resId=S001606 )