人工知能の活用方法として、ポピュラーなのが画像処理の分野です。静止画の分析や認識はもちろん、映像処理にも発展させることができるため、非常に汎用性が高く、多くの業界で活躍している技術です。AIによる画像読み込みとは一言で言っても、実際には多様な技術がそこでは活躍しており、それぞれに別個の役割があります。今回は、画像処理技術の一種であるインスタンスセグメンテーションについて紹介し、初歩的な画像認識技術をワンランクアップさせるためのヒントへ結びつけていきます。インスタンスセグメンテーションについてそもそもセグメンテーションとは、画像内に表示されているオブジェクトを、特定の方法で分類、分割する作業のことを指します。例えば以下の画像をみてみると、「これは犬の写真だよ」と言われても納得はいきますが、実際には犬以外にも多くのオブジェクトが画像内に存在しています。犬の隣には人がいますし、写真の奥には納屋のような建物も見えます。セグメンテーションの処理を行うことで、こういった一つの画像内の情報を整理し、目的に合わせてAIが認識できるよう促すことが可能です。セグメンテーションにはいくつかの方法がありますが、注目を集めるのはインスタンスセグメンテーションです。インスタンスは「実体」を意味する言葉ですが、この処理を実行することで、個別に写真内の実体、つまりインスタンスを検出し、それぞれにIDを振り分けることで詳細な認知をAIへ促します。インスタンスセグメンテーションの仕組みインスタンスセグメンテーションの技術を可能にしているのが、Mask R-CNNと呼ばれる手法です。Mask R-CNNはMicrosoftが開発したFaster R-CNNという物体検出アルゴリズムに改良を加えたもので、よりシンプルで、なおかつ高い精度を実現するのに活躍しています。一般物体検出と、オブジェクトのセグメンテーションを同時に実行できるのが特徴で、それによって高度な検出結果を導き出すことに成功しています。Mask R-CNNを活用することで、インスタンスセグメンテーションを経ることでオブジェクトに関する多くの情報が得られます。単なる「犬」や「ヒト」といった認識にとどまらず、「座っている犬」「立っているヒト」などの詳細な状況を認識可能です。インスタンスセグメンテーションの独自性インスタンスセグメンテーションを理解する上では、実際に他の画像処理とどのように違うのかを画像で確認するのが最も簡単です。以下の図では、画像認識(Image Recognition)、物体検出(Object Detection)、セマンティックセグメンテーション(Semantic Segmentation)、そしてインスタンスセグメンテーション(Instance Segmentation)の認識方法の違いをわかりやすく表したものです。参考:Could you explain me how instance segmentation works? (ai-pool.com)画像認識では、写真の中にどんなオブジェクトがどれくらいの割合で表示されているか、を認識する程度にとどまっているのに対し、物体検出ではそれぞれのオブジェクトを一つずつ認識できていることがわかります。また、セマンティックセグメンテーションはオブジェクトの形状を正確に捉えていますが、インスタンスセグメンテーションはより細かく検出できていることがわかります。セマンティックセグメンテーションについては、「セマンティックセグメンテーションとは?仕組みから活用事例まで解説」をご参照ください。インスタンスセグメンテーションで実現することインスタンスセグメンテーションの実施は、画像認識に多くのメリットをもたらします。ここでは具体的にどのような効果が期待できるのか、確認しておきましょう。より正確な物体検出インスタンスセグメンテーションは、他の画像認識の技術に比べ、正確なオブジェクトの検出を実現可能です。上の画像をみてもらってもわかる通り、インスタンスセグメンテーションはオブジェクトの形状を正確に捉えることができるため、より繊細な処理をAIが実現するのに役立ちます。人間の視覚も、物を捉える時には形や色、大きさを正確に把握しています。インスタンスセグメンテーションは、そんな人間同様の認知能力をAIへ与えるのに役立ちます。さらに高度なロボットの開発画像認識の精度が向上することで、高度なハードウェアの開発にも役立ちます。正確にオブジェクトの形状などを捉えられれば、人間のように細かな作業ができるロボットアームの開発も可能となるでしょう。これまではパレットごとでしか運べなかった倉庫作業も、山積みとなった段ボールをそれぞれ認識し、一つずつ運ぶことができます。あるいは自動運転の際、目前の障害物を別個に認識し、オブジェクトの種類に合わせた対応ができるようになります。セマンティックセグメンテーションとの違いセグメンテーションの手法にはいくつかの種類がありますが、ポピュラーな方法の一つにセマンティックセグメンテーションが挙げられます。セマンティックセグメンテーションは、画像内の画素を分析することで、それぞれのオブジェクトがどのようなクラスに属するのかを特定する技術です。犬の画像は「犬」、ヒト画像は「ヒト」とカテゴライズし、AIへの画像の理解を促します。インスタンスセグメンテーションと異なるのは、それぞれのオブジェクトを別個の「インスタンス」として認識ができない点です。複数の犬やヒトが写っている場合、インスタンスセグメンテーションは「犬1」「犬2」と言った具合にそれぞれのオブジェクトを個別に認識します。一方のセマンティックセグメンテーションは、犬は「犬」、ヒトは「ヒト」という分別しかつかないので、あくまでオブジェクトのカテゴライズにとどまります。ただ、セマンティックセグメンテーションは背景についても正しく認識し、カテゴライズを実施してくれるため、より空間認知に適した手法であるとも言えるでしょう。セマンティックセグメンテーションの用途セマンティックセグメンテーションもインスタンスセグメンテーションと同様の用途が期待されています。製造現場における検査業務や、医療用の画像検査、地形調査など、さまざまな分野で注目を集めています。パノプティックセグメンテーションとの違いパノプティックセグメンテーションは、インスタンスセグメンテーションとセマンティックセグメンテーションを足したような効果を発揮する手法です。画像内に含まれている個別のオブジェクトを特定して一つずつラベル付けを行うとともに、画像内の全ての画素に対してラベルを貼り付けてくれる技術です。パノプティックセグメンテーションの実用化を発表したのは、Googleの研究チームです。エンドツーエンドの初めてのモデルとして送り出されたMax-DeepLabは、高いベンチマークスコアを記録し、今後の活躍に期待されていますパノプティックセグメンテーションの用途パノプティックセグメンテーションでは高度な画像処理が行えるため、より高い精度で自動運転などの技術を進化させることができます。まるで人間のように柔軟性のあるパフォーマンスを発揮できるため、高度な業務を可能にするAI開発に欠かせない技術となるでしょう。セグメンテーションを実現するためのアプローチ上記のようなセグメンテーションを実現するためには、いくつかの手法を使い分けることで実現しています。ディープラーニングを活用したセグメンテーションには具体的にどのようなアルゴリズムが採用されているのか、ここで確認しておきましょう。全層畳み込みネットワーク(FCN)全層畳み込みネットワークは、主にセマンティックセグメンテーションに採用されているアルゴリズムです。モデルのネットワーク内の畳み込み層で得られた特徴をのサイズを大きくすることで、全ての結合層を畳み込み層へと置き換えてしまう手法です。再帰型ニューラルネットワーク(RNN)再帰型ニューラルネットワークは、主に時系列データのように連続性のあるデータを扱う際に用いられるアルゴリズムです。自然言語処理のようなテキストデータを扱う場合や、画像処理に用いられるケースもあります。画像処理にRNNを用いる場合、画像のタテ・ヨコの連続性にフォーカスしてモデル化します。連続的に実行される処理の中で、画像の判別を行います。RNNは、主にセマンティックセグメンテーションに採用されています。R-CNNのモデルR-CNNは、物体検出のために開発された学習モデルです。インスタンスセグメンテーションでは、R-CNNをもとに開発されたMask R-CNNが採用されています。R-CNNは、画像内における物体領域の候補を抽出し、バウンディングボックスを表示する機能を有しています。バウンディングボックスは、物体検出の際にオブジェクトの周辺に表示される四角い矩形のことです。Mask R-CNNは、バウンディングボックス内のピクセルに注目し、クラスの予測を行います。詳細に実体を認識する上で役立つ能力です。セグメンテーションが抱える課題セグメンテーションは画像認識の精度を向上する上で不可欠な処理ですが、一方で課題も残ります。最後に、セグメンテーションの改善に必要な懸念事項について、ご紹介します。3Dデータへの対応セグメンテーションに残る課題として常にささやかれているのが、3Dデータへの対応です。基本的にセグメンテーションは2Dデータに特化した処理であるため、現状は3Dへの対応が遅れている状況です。映像や写真など、立体的な要素を孕んだ画像データも、コンピュータが読み込む上では2Dとして処理されるため、立体感覚を掴むのには時間がかります。建設業界や製造業で活躍するCADデータや点群データの認識には、新しい手法を勘案する必要があるでしょう。学習効率の改善二つ目に、学習効率の改善です。画像認識のポテンシャルは非常に高水準なレベルに達している一方、実用化を妨げるのがマシンへの要求です。推論速度にはまだ何があり、多くのメモリを消費するため、現場へ小型化して配備することが難しい段階にあります。より効率的に処理が行えるアプローチが誕生すれば、さらなる実用性の向上にもつながるでしょう。学習スピードの向上セグメンテーションは、まだまだ学習速度にも課題を抱えています。データの読み込みに時間がかかるのは、マシンパワーの問題だけでなく、多くのデータを必要としている点も課題です。より少ない画素数で学習を進めることができれば、モデルの構築スピードを高め、AIの実践配備スピードを高められます。開発コストを抑え、企業に成長をもたらせるようになるでしょう。いずれにせよ、開発にかかる負担を軽減するためのソリューションは、まだまだ大きな需要があるということです。FastLabelでは、そんなAI開発における負荷を少しでも軽減するべく、教師データ作成の効率化を実現するアノテーションプラットフォームを提供しています。専門のアノテーションチームと進捗管理に最適化されたマネジメントシステムを活用し、教師データの確保とAI開発のスピード改善の両立します。教師データの確保にお困りの際には、お気軽にご相談ください。まとめ今回は、画像認識の主要な処理であるインスタンスセグメンテーションについて、解説しました。セグメンテーションの技法にはいくつかの種類があり、セマンティックセグメンテーションとの使い分けや、最新技術であるパノプティックセグメンテーションの動向にも注目したいところです。セグメンテーションの実行には、目的に合わせたアルゴリズムの選択も必要になります。それぞれの手法への理解を深め、正しい手段を選べるようになることが大切です。