人工知能(AI)の汎用性の高さは、これまで実現してきた技術からもはやお墨付きであると言えますが、中でも活用機会が多いとされている技術の一つが物体検出です。現実世界や画像の中からオブジェクトを検出する能力は、私たちが日常的に活用している一方、ロボットにこのアビリティを付与するためには高度な技術力が求められてきました。今回は、そんなAIによる物体検出能力の仕組みや、どんな活用方法が期待されているのかについて、ご紹介していきます。物体検出とは物体検出は、画像や映像内における物体を検出して、人間が視覚を使って実施していた業務を代替できる技術です。従来のカメラやセンサーは、あくまで映像や画像を使ってモニタリングしたり、撮影したりするためだけに使われてきました。物体検出の能力を備えたAIをこれらのハードにインストールすることで、自律的な監視能力や判別能力を備え、業務を遂行してくれるようになります。物体認識との違い物体検出と合わせて活用されている技術の一つに、物体認識が挙げられます。物体認識もAIの活用事例が豊富な技術ですが、大きな違いとして、物体検出はオブジェクトの位置情報を特定できる点にあります。物体認識の場合、画像や映像に何が含まれているかを認識し、割り出すことができます。例えば、写真の中にりんごとみかんが写っている場合、果物の画像認識ができるAIであれば、そこに「りんごとみかんがある」ことを把握できます。一方の物体検出は、そこに「りんごとみかんがある」ことを認識するだけでなく、それぞれ画像のどの辺りに位置しており、何個あるか、ということまでを把握することができます。「画像中央にりんごが一つ、画像右端にみかんが二つ」といった正確な位置情報を含めて検出できるのが、物体検出技術の特徴です。ただ、AIの活躍がメジャーになった近年では、物体検出と物体認識がひとまとめにして使用されるケースも増えています。物体を「認識」する力と「検出」する力には微妙な違いがあるものの、世間一般では同義的に用いられていることも理解しておくと良いでしょう。物体検出の仕組み物体検出は大いな可能性を有している技術ですが、具体的にはどのようなメカニズムでさようしているのでしょうか。ここで物体検出の仕組みについて、もう少し具体的に理解しておきましょう。物体検出の際に必要となるのが、バウンディングボックスと呼ばれる矩形です。画像内に検出したいオブジェクトに対してバウンディングボックスが表示されるようAIに学習させることで、画像ないから物体を検出し、独自に扱えるよう促してくれます。事前に学習したモデルを参考に、AIは最も適合率の高いエリアに対してバウンディングボックスの囲い込みを実施します。物体の大きさに応じて、矩形の形状は柔軟に変形してくれる仕組みです。人工知能はバウンディングボックスが何個あるか、何種類あるかを把握することで、画像ないから物体に関するさまざまな情報を検出し、人間の視覚のような役割を果たすこととなります。主な物体検出の手法このように、物体検出に伴うバウンディングボックスの表示を迅速かつ正確に行うべく、人工知能の世界ではさまざまなアルゴリズムが採用されてきました。ここでは物体検出で活躍する主な手法について、4つほどご紹介します。R-CNN物体検出技術のパイオニアとして脚光を浴びたのが、R-CNNです。画像をインプットした後、コンピュータに物体が写っているとされる領域ウインドウを複数表示させ、ディープラーニング技術の一種であるCNN(畳み込みニューラルネットワーク)を活用することで、候補となるウインドウにおける特徴量を抽出します。いわば画像内を総当たりするような検出方法であるため、それなりの制度での検出は期待できる一方、コンピュータにかかる負荷は非常に大きいことが難点とされてきました。実践環境で物体検出を活用する場合、ハードにかけられる予算やサイズというものはシーンに応じて限られてしまいます。できるだけ負荷の小さな方法を発見し、実装できることは、AIの発展や普及に対して非常に大きな意味を持っていると言えるでしょう。幸い、R-CNNが登場してすぐこの課題は真っ先に取り上げられ、少し後にはFast R-CNNやFaster R-CNNというアップグレードしたアルゴリズムも登場しました。これらはR-CNNを土台とした技術でありながら、処理速度やメモリへの負担を抑えられる仕組みを導入しており、R-CNNの弱点をうまくカバーできている技術です。短所をわずかな短期間で克服できるほどの研究が行われていることからも、AI開発がいかに世界中で注目を集めている分野であるかがわかります。YOLOR-CNNは処理にかかる負担が大きいということで、注目されるようになったのがYOLOです。YOLOは画像を網目状に分割し、それぞれの領域に応じた物体の検出と位置情報の取得を行います。YOLOの最大のメリットは、抜群の処理スピードを備えている点です。あらかじめ画像がグリッド状に分割されているので、物体を検出するために領域を一つずつ用意する必要はありません。そのため、リアルタイムの映像や画像の検出にも活用可能な技術です。ただ、画像内に複数の物体が存在する場合、検出の精度に支障をきたす場合もあるため、運用シーンには注意が必要です。精度面ではR-CNNやFaster R-CNNに劣る可能性を考慮しておきましょう。SSDSSDも、YOLO同様処理速度に定評のある物体検出アルゴリズムです。リアルタイムでの検出が可能なだけでなく、画像内に複数の物体が存在する場合でも精度を保って運用できる強みを持っています。一度の演算処理を実行するだけで、領域の検出と分類の両方を実現するため、効率的ということで好んで採用される傾向にあります。DETR物体検出はR-CNN、YOLO、SSDの三種類が主流ですが、DETRと呼ばれる新しい検出方法も登場しています。DETRはFacebookのAI研究チームが2020年に公開したモデルで、Transformerと呼ばれる自然言語処理の分野で活躍するモデルを採用して誕生しました。エンドツーエンドなモデルとして仕上がっており、手動でハイパーパラメータを調節する必要もなく、物体検出の運用負担の大幅な削減が可能であるとして、大いに注目を集めています。精度や処理速度の面でも不安が小さく、今後活躍の場が広がっていくと期待されているアルゴリズムです。物体検出の活用方法物体検出の技術を実践で運用する場合、非常に多くのシーンで活躍が期待できます。ここでは物体検出の活用方法について、主な事例をご紹介します。異常検知システム 異常検知システムは、物体検出の技術がフル活用されるポピュラーなシーンです。ベルトコンベアに異物が混入した際の検知システムや、監視カメラに映った不審者の検出など、品質管理やセキュリティといった分野を中心に、活躍が期待できます。これまでは目視確認が必要だった品質管理業務や、警備業務の人件費削減、そして精度の向上に期待が持てます。混雑管理システム 混雑管理システムも、物体検出の能力をフル活用できる現場の一つです。物体検出技術の最大の特徴は、映像や画像内におけるオブジェクトの数を正確に把握できるという点です。モニタリングしているエリアにおいて、どれだけの人手があるかを数値化できれば、特定のスポットにおける人での観測や、混雑度合いの正確な把握を促せます。また、高度なAIであれば人の数だけでなく、どんな人がカメラの範囲内に収まっているかを確認することもできます。男性・女性の区別や、人種の区別、年齢、眼鏡をかけているかどうかなど、外見の特徴に基づいて数値化を行えます。観光スポットの混雑管理を効率化したり、感染症対策を改善したり、リサーチ業務の効率化に繋げたりが可能です。自動運転システム 自動運転システムも、物体検出の精度が向上したことで実現しつつある技術の一つです。自動車の運転を完全にAIへ任せる上での難所となっていたのが、リアルタイムでの映像認識です。時間をかければ人間以上に適切な判断ができる人工知能であっても、人間の神経反射のレベルで高いパフォーマンスを発揮するためには、相応の技術力が求められてきました。しかし物体検出の精度と速度が向上したことで、人間と同等、あるいはそれ以上の状況判断が容易に実現しつつあります。その結果、自動運転の本格的な実用化もいよいよ現実的なものとなってきました。 物体検出の課題 このように、物体検出の技術レベルは年々向上し、運用実績もまとまりつつある一方で、その実装にはまだまだ課題も残ります。ここでは、どのような課題が物体検出には残されているのかについて、ご紹介します。高度な学習を繰り返す必要がある 一つ目の課題は、事前に高度な学習をAIに実施しなければならないという点です。物体検出に特化したアルゴリズムの研究も進み、今では複数の手法から最適なものを選んで運用できるほどにまで到達している一方、肝心のデータセットの用意についてはまだまだ手動が主流です。もちろん、AIを使って高度なデータセットを作成することも可能ですが、そのための学習モデルを構築しないといけないなど、いずれにせよデータを自前で用意することは必須となります。近年は物体検出モデル構築のためのデータセットが販売、あるいは無料公開されるケースも増えており、以前よりは格段に実施のハードルが低くなっています。また、優れた教師データの作成サービスプラットフォームも登場し、AI進出の環境は次々と整備されつつあります。外部の助けも借りながら、効率よく開発を進めることをおすすめします。肉眼に劣るケースもある 二つ目の課題は、精度面での問題です。物体検出の精度とスピードは、確かに人間のそれを凌ぐパフォーマンスを実現するレベルに到達していますが、必ずしも全てのモデルでハイエンドな仕上がりに到達できるとは限りません。学習環境や学習時間を十分に確保できなければ、最も簡単に精度を欠いてしまうAIに仕上がり、実践レベルに到達しない可能性もあります。また、物体検出は人間と異なるプロセスで検出を行うため、人間の目ではすぐに確認できても、AIの力では検出が間に合わないケースもあります。多くの人手から個人を瞬時に特定したり、AIの認知レベルを極端に低下させる模様やオブジェクトを検出したりするには、人間の視覚の方が頼りになるケースもあります。AIの能力を過大評価することは、時としてリスクがあることも覚えておきましょう。参考:WIRED「監視システムに検出されないシャツ」は、こうして生み出された」 物体検出の運用事例 最後に、実際の物体検出の運用事例についてもここで確認しておきましょう。清華大学 中国の清華大学は、リアルタイムでの物体検出技術やバランス制御技術などを応用し、声で操る無人運転自転車の開発に成功しました。二輪車は自動車のような四輪車と比べ、制御が非常に難しく、人間特有の乗り物とされてきました。しかしAIの制御能力や検出能力の向上に伴い、人間と同等かそれ以上の運転技術を実現しつつあります。今回の発表では、自転車が音声操作で自律的に走行している様子や、障害物を避けて走る様子、起伏の激しいアンバランスな路上でも走行が実現している様子などが紹介されました。参考:Gizmodo「幽霊じゃないよ。AI操縦でひとりでに走る自転車」富士通研究所 富士通研究所は、医療分野における物体検出の活用で成果を挙げています。通常、高精度で物体検出を行うためには大量の学習データを必要としますが、医療業界のように学習データが少ない、ニッチなケースでAIを活用したいケースもあるものです。そこで同研究所ではディープラーニングの技術を活用し、医療画像からの組織検出精度を2倍以上向上させることに成功しています。肉眼では見落としてしまうような体内の異常検知も、高度なAIの実装によって幅広い運用が進むと考えられます。参考:ZDNet Japan「富士通研究所、医療画像からの組織の検出精度を2倍以上に高めるAI技術を開発」 おわりに 今回は、AIを活用した物体検出の仕組みや、どんな活用方法があるのかについてご紹介しました。人間の視覚では捉えるのが困難、あるいは時間がかかるというケースにおいても、訓練されたAIであれば瞬時にオブジェクトを検出し、数値化してくれます。物体検出の学習モデルもより高度なものが登場していますが、一方で学習に必要なデータ量も膨大となるため、自社データや外部サービスを駆使して効率的な学習を進める必要があります。FastLabelでは、高度なAI開発を実現するのに欠かせないデータセットの確保をサポートする、アノテーションプラットフォームを提供しています。自社では対応しきれない未処理のデータも、専門チームが対応し、優秀な教師データとして生まれ変わらせることが可能です。高度なAI運用を高いコストパフォーマンスで実現したいという場合には、お気軽にご相談ください。