セマンティックセグメンテーションと呼ばれる画像認識の技術が注目を浴びています。セマンティックセグメンテーションとは、ディープラーニングを活用し、画像内の各ピクセルがどのオブジェクトに属しているかを認識する技術のこと。この技術は、自動運転システムや医療分野での診断支援など、さまざまな分野で実用化が進んでいます。ただし、画像認識技術(タスク)には以下のようなアプローチがあります。分類物体検出セグメンテーション(領域抽出)セマンティックセグメンテーションはこのうち「セグメンテーション」に分類されます。これらの技術との違いを理解し、適切な技術を選ぶことが重要です。また、セマンティックセグメンテーションがどのように活用されているかを知ることも大切でしょう。この記事では、セマンティックセグメンテーションの仕組みやほかの画像認識技術との比較、活用事例について解説します。また、AI開発における実際の活用手法やセグメンテーションのアルゴリズムについても紹介していますので、ぜひ最後までお読みください。セマンティックセグメンテーションとはセマンティックセグメンテーション(Semantic Segmentation)とは、画像を画素レベルで把握するための深層学習を用いた画像認識技術です。画像の領域まで識別するために用いられます。上の図は、セマンティックセグメンテーションにより道路シーンをクラス分けしたものです。「道路」「白線」「標識」「通行人」「自動車」「建物」が領域まで識別されています。物体の種類、位置だけでなく、領域まで識別できる技術として大きな注目を浴びています。セマンティックセグメンテーションの仕組みセマンティックセグメンテーションは、SegNet(セマンティックセグメンテーション向け畳み込みニューラルネットワーク)を活用して実現されています。SegNetは、2015年にケンブリッジ大学により発表された技術です。SegNetは、データを圧縮するための装置「エンコーダ」 圧縮データを解凍するための装置「デコーダ」2つの仕組みを持っており、画像に写る物体をピクセル単体で複数のクラスに分割していきます。エンコーダ部分にはCNN(畳み込みニュートラルネットワーク)が実装されています。デコーダ部分には、CNNが逆実装されていますが、圧縮データを解凍しても画質が劣らないことが大きな魅力となっている技術です。セマンティックセグメンテーションとほかの画像認識技術の違い画像認識の技術(タスク)は、以下の5つに分類できます。分類・画像内に何があるのか識別する物体検出・画像内で何がどこにあるのかを検出するセマンティックセグメンテーション・画像内の各ピクセルをカテゴリに応じて分類する・同じカテゴリの物体を区別せず、まとめて扱うインスタンスセグメンテーション・同じカテゴリの物体を個別に識別する・各物体のインスタンスを区別し、個別の形状を認識パノプティックセグメンテーション・インスタンスセグメンテーションとセマンティックセグメンテーションを統合したもの・数えられる物体と数えられない物体(背景など)の両方を扱う以下の図は、物体検出(Object Detection)セマンティックセグメンテーション(Semantic Segmentation)インスタンスセグメンテーション(Instance Segmentation)の認識方法の違いをわかりやすく表したものです。※引用:Difference in Image Classification, Semantic Segmentation, Object Detection, and Instance Segmentation : r/learnmachinelearningこのように、画像認識技術によって認識できる範囲が異なります。そのため、自社のAIモデルに適した画像認識技術はどれかを判断し、活用することが大切です。セマンティックセグメンテーションのメリット・デメリットここまで、セマンティックセグメンテーションの仕組みやほかの画像認識技術との違いを解説しましたが、より詳しく理解するために、メリットとデメリットも把握しておきましょう。セマンティックセグメンテーションのメリットセマンティックセグメンテーションは、物体の特定物体の位置物体の領域まで識別できます。ヒトやモノだけでなく背景も正しく認識し、カテゴライズを実施してくれるため、空間認知に適した手法と言えるでしょう。そのため、後ほど詳しく解説しますが、以下のように各分野で幅広く活用されています。【活用分野】自動運転、画像診断、衛星画像、ロボット、医療診断セマンティックセグメンテーションのデメリットセマンティックセグメンテーションには、以下のようなデメリットがあります。教師データの作成が複雑になる重なりあう物体を個別に識別できないでは、それぞれのデメリットについて、詳しく見ていきましょう。教師データの作成が複雑になるセマンティックセグメンテーションは高精度な画像識別が行えますが、教師データの作成が複雑となり大変です。動画や画像内の物体の領域を指定して、正解ラベルを付けていかなければならないからです。また、膨大な数の教師データが必要となります。重なりあう物体を個別に識別できないセマンティックセグメンテーションは、物体の境界が明確でない場合や、物体が重なっている場合には、各物体を個別に識別できません。例えば、複数の人が隙間なく並んでいる画像の場合、一人ひとりを区別できず、一つの「ヒト」の領域として認識します。そのため、各物体を個別に認識させたいのであれば、セマンティックセグメンテーションではなく、インスタンスセグメンテーションを用いる必要があります。インスタンスセグメンテーションについては、下記記事で詳しく解説していますので、併せてご覧ください。関連記事:インスタンスセグメンテーションとは?仕組みやアルゴリズムを徹底解説セマンティックセグメンテーションの活用事例セマンティックセグメンテーションの画像認識技術や仕組みについて理解して頂けたと思います。続いて、セマンティックセグメンテーションの活用事例をご紹介します。自動運転自動運転を実現するLiDARに技術が活用されています。LiDARとは対象物にレーザーを当てて、光が跳ね返るまでの時間から、対象物までの距離や形状を測定する技術です。LiDAR自体は新しい技術ではありません。もとは航空宇宙分野の地形図作成アプリケーションへの使用を目的として、1960年代に開発されました。セマンティックセグメンテーション技術の登場により、車間距離の計算や障害物の判別が行えるようになり、精度が上がり再注目されてきたものです。自動運転技術は年々性能が向上しており、2023年に福井県永平寺町で、日本初の「レベル4」での無人自動運転移動サービスが開始されています。レベル運転主体走行可能領域1(運転支援)ヒト限定的2(部分運転自動化)ヒト限定的3(条件付き運転自動化)システム限定的4(高度運転自動化)システム限定的5(完全運転自動化)システム限定なし医療用画像診断病院で活用されるAI画像診断システムにもセマンティックセグメンテーションの技術が活用されています。東京大学発のスタートアップ会社が開発したアルゴリズムでは、MRA画像データから90%以上の確率で脳動脈瘤が自動検知できるようになったと報告されています。医師の診断業務を軽減するために、AI画像診断システムの導入が進んでいくことでしょう。将来的には、医師では発見が難しい疾患や初期段階の癌なども自動検知ができると予測されており、大きな注目を集めています。画像検査河川の監視カメラにも当技術が活用されています。監視カメラの動画から水面の領域を認識して水位を推定し、河川氾濫、浸水被害の発生率の予測にセマンティックセグメンテーションの画像認識技術が役立てられています。地方自治体の防災業務の効率化に貢献するシステムとして大きな注目を浴びているのです。※引用:AIを用いた河川管理の高度化|総務省近年は、ゲリラ豪雨による河川越水や道路冠水などの莫大な被害が多発しており、河川氾濫の被害予測の需要は高まっています。そのため、総務省の指示により全国で河川の監視カメラによる水位推定の実証実験が行われています。セグメンテーションを実現するためのアルゴリズムセマンティックセグメンテーションを含め、ディープラーニングを活用したセグメンテーションには具体的にどのようなアルゴリズムが採用されているのでしょうか。活用される主なアルゴリズムには、以下のような種類があります。全層畳み込みネットワーク(FCN)再帰型ニューラルネットワーク(RNN)R-CNNのモデルでは、これらのアルゴリズムの違いについて解説します。全層畳み込みネットワーク(FCN)全層畳み込みネットワークは、セマンティックセグメンテーションに特化したアルゴリズムです。※引用:Fully Convolutional Network (FCN)) | CVMLエキスパートガイドこの手法では、従来の全結合層を排除し、畳み込み層だけで構成されたネットワークを使用します。畳み込み層によって得られる特徴マップを大きくすることで、ピクセル単位で画像を処理し、精密なセグメンテーションが可能になります。再帰型ニューラルネットワーク(RNN)再帰型ニューラルネットワークも、セマンティックセグメンテーションに用いられるアルゴリズムの一つです。特に時系列データの処理に優れており、自然言語処理や画像解析にも応用されています。※引用:RNNのダイアグラム | CVMLエキスパートガイド画像解析においては、画像の縦横に沿った連続的なデータを扱うことで、ピクセル間の関連性をモデル化し、認識精度を向上させます。R-CNNのモデルR-CNNは、画像内の物体を特定するために開発されたモデルです。※引用:R-CNN (Region-CNN) | CVMLエキスパートガイドR-CNNは、物体が存在する可能性が高い領域を抽出し、その周囲にバウンディングボックス(物体を囲む四角形)を表示して物体検出を行います。セマンティックセグメンテーションにおいて重要になる「アノテーション」セマンティックセグメンテーションでは、アノテーションの正確性が非常に重要です。アノテーションとは、テキスト・音声・動画などの異なるデータにラベリングやタグを付ける作業のことです。高品質なアノテーションデータを使用することで、セマンティックセグメンテーションモデルの精度が向上します。なぜなら、正確にラベル付けされたデータセットで学習することで、より正確に画像内の物体や領域を分類できるようになるからです。しかし、アノテーション作業は十分なアノテーター数が必要になったり、コストがかかったりといった課題があります。また、アノテーター数を確保できたとしても、それぞれが異なるルールでラベリングした場合、品質が低下してAIの精度が落ちてしまいます。そのため、以下のような場合は外部委託を検討することをおすすめします。社内のリソースが不足しているアノテーションデータの品質を担保したいアノテーション作業についてより詳しく知りたい場合は、下記記事を参考にしてください。関連記事:アノテーション業務とは?精度向上と業務効率化を実現するポイントまた、アノテーションサービスのサービス内容や、費用について知りたい場合は、下記記事をご覧ください。関連記事:アノテーション代行サービスの費用相場とは?内訳まで徹底解説まとめ今回はセマンティックセグメンテーションの画像認識の技術について解説しました。最後にまとめをご覧ください。▼セマンティックセグメンテーションとは画像を画素レベルで把握するための深層学習を用いた画像認識技術▼ほかの画像認識技術との違い分類・画像内に何があるのか識別する物体検出・画像内で何がどこにあるのか検出するセマンティックセグメンテーション・画像内の各ピクセルをカテゴリに応じて分類する・同じカテゴリの物体を区別せず、まとめて扱うインスタンスセグメンテーション・同じカテゴリの物体を個別に識別する・各物体のインスタンスを区別し、個別の形状を認識パノプティックセグメンテーション・インスタンスセグメンテーションとセマンティックセグメンテーションを統合したもの・数えられる物体と数えられない物体(背景など)の両方を扱う▼セマンティックセグメンテーションのメリット・デメリットメリット・物体の特定・物体の位置・物体の領域まで識別できる・背景も正しく認識し、カテゴライズを実施してくれるデメリット・教師データの作成が複雑複雑になる・重なりあう物体を個別に識別できないセマンティックセグメンテーションは、今後需要が増えていく技術ですが、教師データの作成が難しいという問題点が挙げられています。オープンデータセットを活用する方法もありますが、自社優位性の高いシステム開発には自社データが必要となります。そのため、教師データの作成に悩んだ際は、「FastLabel」までご相談ください。