AIの精度を高めるためには、高品質の教師データが必要不可欠です。しかし、教師データを作成するアノテーション業務には「人」「お金」「ノウハウ」が必要になります。これらが大きな負担となる方はデータセットを積極的に活用していきましょう。この記事では「人物」「動物」「食べ物」「自動車」「ファッション」のカテゴリ別におすすめのデータセットをご紹介します。 AI画像データセット:人物顔認識や顔認証は注目を浴びており、近年では顔画像データセットが続々と登場しています。ここでは、顔画像で活用できるおすすめの画像データセットをご紹介します。WebFace260MWeb Face260Mは、AI開発のデータ不足問題を開発するために公開された顔画像データセットです。2021年に公開されたデータセットで、260万人の顔画像が公開されていることで大きな注目を集めています。米国の人物の顔画像が全体の4割を占めていますが、イギリスや日本、オーストラリアなど200以上の国の方の顔画像が用意されています。また、さまざまな顔の向きの写真、マスク着用の写真なども用意されていることが大きな特徴。そのため、さまざまなAI開発の研究に役立ちます。Labeled Faces in the WildLabeled Faces in the Wildは、顔認識システムの研究支援を目的として一般公開されている画像データセットです。Webサイトから収集した約13,000人の画像が用意されています。また、約1,680人の画像は異なる角度の複数の顔画像が用意されているため、AI開発の研究に役立ちます。Labeled Faces in the Wildの公開した作者は研究貢献した者に贈られるMARKEVERINGHAM賞を受賞するなど、高い評価を受けているデータセットです。 PIXTAPIXTAは日本最大級のデジタル素材マーケットプレイスとして幅広い画像素材を取り揃えています。同社の事業を強みとした機械学習用の日本人画像の販売を行っています。顔画像のデータセットでは、日本人のデータセットの配布は少なく、バリエーションも少ない状態です。このような現状の課題を解決するために、日本人の顔画像をデータセット(1,000枚)にして販売をしています。有料となりますが、日本人の顔画像データセットが欲しい方は必見です。 これらの顔画像データセットを活用して顔認識・顔認証システムを開発したい方は「〇〇〇〇」を参考にしてみてください。 AI画像データセット:動物動物を中心とした画像を取り扱っているデータセットは下記の通りです。 Image NetImageNetは、1,400万枚の画像データが取得できる有名なデータセットです。スタンダード大学の研究員Fei-Fei Li氏が管理しており、世界中のAI研究に役立っています。Image Netのデータセットを活用した動物の識別ができるAIを開発に挑戦する方は多く、さまざまな動物画像が簡単に取得できると知名度を誇るデータセットです。 CIFAR-10ClFARはトロント大学がAI開発の研究用に公開をしている知名度を誇るデータセットです。「鳥」「猫」「鹿」「犬」「カエル」「馬」がクラス別にフォルダに保存されています。各フォルダには、6,000枚以上のラベル付きが含まれており、1,000枚のテストデータが含まれています。とても研究に活かしやすい画像データセットです。 Open Image Dataset v4Open Image Dataset v4は、Googleが提供している世界最大級のデータセットです。900万枚以上の画像データにラベル付けがされています。また、学習用データだけではなく、確認用データやテストデータも取り揃えられているため非常に便利です。自動車の窓から顔を出している犬や部屋で寛いでいる犬など、さまざまな動物の画像データセットが用意されています。 AI画像データセット:食べ物次に、食べ物に関する画像データセットをご紹介します。 Food-101 Food-101は、Computer Vision Laboratoryが提供している食品に特化したデータセットです。Microsoft AI&Researchを活用したラベルノイズを引き起こした画像も含まれているため、画像のラベル付けのトレーニングにも活用できます。Food-101の名前の由来ですが「アップルパイ」「餃子」など101種類の画像データが納められています。 Laboro TomatoLaboro Tomatoは、人工知能に関するコンサルティング事業を行う株式会社Laboro.AIが公開しているデータセットです。トマトの画像が収納されており、通常サイズのトマトとミニトマトの2つの種類で分類されています。「成熟」「半熟」「未熟」の成熟度に合わせた画像が804枚用意されており、農業向けのAI開発研究として公開されています。商用目的で活用したい場合は、株式会社Laboro.AIの許可が必要です。 楽天データセット楽天グループ株式会社が国立情報学研究所を通じて、AI開発研究者に提供しているデータセットです。楽天市場や楽天トラブル、楽天レシピで使用されているデータがセットになり提供されています。楽天レシピからは約80万枚にもなる画像が提供されているため、食べ物の画像データをお探しの方におすすめのデータセットです。楽天データセットを使用する場合は申し込みが必要となります。 AI画像データセット:自動車次に自動車に関する画像データセットをご紹介します。 CIFAR-10ClFARはトロント大学がAI開発の研究用に公開をしている知名度を誇るデータセットです。「自動車」「飛行機」「船」「トラック」がクラス別にフォルダに保存されています。各フォルダには、6,000枚以上のラベル付きが含まれており、1,000枚のテストデータが含まれています。とても研究に活かしやすい画像データセットです。Waymo Open DatasetWaymo Open Datasetは、自動運転分野で先頭を走るWaymoが自動車業界のAI研究者向けに無料で提供しているデータセットです。車両や歩行者、自動車、標識など運転技術の自動化に必要なデータが収納されています。Waymoは、AI研究が普及するように努めており、コンテンストなども定期的に開催しています。 cognataCognataは、自動走行運転の開発研究を行っている企業で、AI研究に役立つ自動車の画像データセットを無償で提供しています。自動車をはじめ、二輪車やトラック、バス、建設用車両、緊急用車両など多種多様な種類の画像が収納されていることが大きな特徴です。カタログ写真などで画質が良いことも大きな魅力となっています。 AI画像データセット:ファッション次にファッションに関する画像データセットをご紹介します。 Shift15MShify15Mは、ZOZO研究所が無償提供するファッションに特化したデータセットです。ファッションアプリ「IQON」に投稿されたコーディネートを基に構成された大規模データセット。年々変化するファッションの流行を正確に捉えるようにAI分野の開発に向けて提供されています。 Fashion-MNISTFashion-MNISTは、Zalando Researchが提供しているファッション版のデータセットです。6万枚の学習用データと1万枚のテストデータが収集されています。Tシャツやドレス、スカート、サンダルなど10クラスに分類されており、Fashion-MNISTで開発したAIでZOZOTOWNの商品分類をするという研究も過去に行われています。 楽天データセット楽天グループ株式会社が国立情報学研究所を通じて、AI開発研究者に提供しているデータセットです。楽天市場や楽天トラブル、楽天レシピで使用されているデータがセットになり提供されています。楽天市場からは商品画像が提供されており、さまざまなファッション画像が入手できます。楽天データセットを使用する場合は申し込みが必要となります。 AI画像データセットを活用する際のポイント各テーマの画像データセットをご紹介してきました。とても便利な画像データセットですが、活用する場合は下記の点に注意をしましょう。 独自データも取得して競合優位性を得るデータセットだけでAI開発を行うと、他製品と比較して競合優位性が劣る恐れがあります。自社独自の競合優位性に勝るAIを開発する場合は独自データの収集も忘れずに行いましょう。また、データセットは画質や品質を同じようにして、特徴量が抽出しやすいように後処理をしてください。このような手間を加えることで精度の高いAIが開発できます。 AIサービスのUI・UXにこだわる独自データの取得が難しい場合は、AIサービスのUI・UXにこだわりましょう。UI・UXが素晴らしければ、それが競合優位性となり多くの方に選んでもらえるサービスとなります。 データクレンジングを行うデータセットは便利ですが、ラベル付けが全て正しいとは限りません。無償で公開されているデータセットのラベル付けの間違いがあることは度々問題として述べられています。そのため、データセットを利用する場合でも正しくラベル付けされているかを確認してください。また、誤ったラベル付けがされている場合は正しいラベルを付け直しましょう。 まとめ今回は、カテゴリ別の画像データセットをご紹介しました。AI市場規模は拡大する一方でAI人材は不足しており、AI研究を加速させる目的で、さまざまな企業がデータセットを提供しています。これらのデータセットを活用すれば、AI開発のトライ&エラーが速やかに行えるようになるでしょう。そのため、AI開発をお考えの方はデータセットの利用を検討してみてください。しかし、全てをデータセットで間に合わせると競合優位性に劣ります。そのため、自社独自のデータ収集も忘れずに行いましょう。FastLabel社は従量課金型の教師データ作成サービスを提供しています。少量の自社独自のデータが欲しいという要望に応えられるため、お気軽にご相談ください。