AIシステム開発にはデータセットが欠かせません。当社の調査結果では、高品質な教師データの件数を増やせば増やすほど、AIシステムの精度が上がることが判明しました。この記事をお読みになっている方も、高品質なAIシステムを開発するために、データセットの取得方法に悩んでいることでしょう。実際に、データセットはどのように取得すれば良いのでしょうか?ここでは、AIシステムの精度を決めるデータセットの取得方法について分かりやすく解説します。データセットとはデータセット(data set)とは、コンピュータで処理されるデータのまとまりを指します。AI分野では、プログラムで処理されるデータの集合体のことをいいます。必要性機械学習にトレーニングさせるデータセットの品質によって、AIシステムの精度が変わります。当社の独自調査では、ラベル数を増やすことでAIシステムの精度が向上する事実が判明しています。そのため、高い精度のAIシステムを開発するために、高品質のデータセットを準備しましょう。種類機械学習に必要なデータセットは、大きく3種類に分類できます。1.トレーニングセットトレーニングセットとは、機械学習にトレーニングさせるためのデータセットです。トレーニングデータセットを読み込ませて、回帰モデルやクラス分類モデルを構築していきます。システム開発の内容で変動しますが、顔認識システムで必要なデータ件数は10万件、テキストのカテゴリ分類で必要なデータ件数は6万件と言われています。また、データ件数のみならず、品質にも拘らなければいけません。2.バリデーションセットバリデーションセットとは、モデルのハイパーパラメーターを決めるためのデータセットです。推論や予測の枠組みの中で決定されず、手動で設定しなければいけないパラメータ(層数・ユニット数・活性化関数・ドロップアウト率・最適化手法など)の良し悪しを確認するための検証用データとなります。3.テストセットテストセットとは、AIシステムの性能を最終的に検証するために使用するデータセットです。パフォーマンスを確かめるために使用するデータのため、トレーニングセットやバリデーションセットで使用したデータを利用できません。取得方法データセットの取得方法には2通りあります。1.オープンデータセットAIシステムの需要増加に伴い、データセットの大切さが再認識されており、政府や有名企業がAIシステム開発を促進するにオープンデータを公開しています。オープンデータは、誰でも気軽に利用できる無償配布のデータセットです。画像データやテキストデータ、音声データなど豊富な種類のデータセットが提供されているため、構築したいAIシステムに合わせて活用しましょう。2.データセット作成オープンデータセットは誰でも気軽に活用できますが、競合優位性のあるAIシステムの構築には不向きです。高精度なAIシステムを構築するためには、独自で収集したミクロデータを組み合わせる必要があります。ミクロデータになるデータセットは、独自データを収集してラベル付けを行うことで作成できます。 オープンデータセットとはデータセット取得には2通りの方法があると説明しました。高精度なAIシステムを開発するために、それぞれの方法の特徴について理解を深めていきましょう。まずは、オープンデータセットのメリット・デメリットについて解説します。メリットオープンデータセットを活用すれば、アノテーション業務を省略化してAIシステムが構築できます。信頼のおける企業が、画像・テキスト・音声・映像など豊富な種類のデータセットを提供しています。また、医療や不動産など業界に特化したオープンデータセットも豊富です。AIシステムの構築には、5万枚~10万枚程度の教師データが必要と言われています。そのため、オープンデータセットを上手に活用してアノテーション業務を効率化していきましょう。デメリットオープンデータセットは誰でも気軽に活用できるデータです。そのため、オープンデータセットだけで構築したAIシステムは競合優位性が劣ります。行政や有名企業がAIシステム開発の促進のために提供しているデータですが、ラベル付けが100%正解であるとは保証されていません。また、複数のデータセットを組み合わせた結果、意図しない結果が出る恐れがあることも想定しておかなければいけません。オープンデータセットの例オープンデータセットは、国内外のさまざまな企業が提供しています。①国内DATA GO JP各府省庁(政府)が個別に公開している公共データを横断的に検索できるポータルサイト国立情報学研究データリポジトリ国立情報学研究所のデータセット共同利用研究開発センターが運営しているポータルサイト楽天データセット楽天が保有するデータを大学、公的研究機関の研究で利用してもらうために公開している。AIシステムの普及を目的に公開されているデータセット。Yahoo Labs Webscope学術的研究に活かしイノベーションを起こすことを目的に機械学習のためのデータセットを公開している。②国外Google Dataset SearchGoogleが提供するデータセットに特化した検索サービス。2020年1月23日に正式公開されました。facebook research DatasetFacebook社がAIシステムのモデル学習に使用できるデータセットを公開している。Registry of Open Data on AWSAWSを通じて公開されているデータセットを検索できる。Microsoft Research Open DataMicrosoft社の基礎研究部門Microsoft Researchが公開しているデータセット。オープンデータセットは、上記の他にもあります。詳しくは「AIのための画像データセット大辞典【人物・動物・食べ物・自動車・ファッション】」をご参考にしてください。 データセット作成競合優位性のあるAIシステムには、独自作成のデータセットは欠かせません。実際に、どのようにデータセットを作成していけば良いのでしょうか?次に、独自作成のデータセットのメリット・デメリットについて解説します。メリット独自のデータセットを作成すれば、競合優位性のあるAIシステムが開発できます。オープンデータセットに存在しないユニークなデータが作成可能です。また、自社に必要なデータセットを作成できるため、精度が上がりやすいくなります。デメリットマクロデータが収集できてAIシステムの精度向上が見込める独自データセットを作成するには、莫大なリソースが必要となります。誰でも無償で利用できるオープンデータセットと比較すると、コストと労力が必要となります。10万枚のデータセット作成は大きな負担となり、内製化が難しいのが現状です。データセットの作り方AIシステムのモデルに学習させるデータセットは、次の手順で作成します。1.データを収集する教師データを作成するために独自データを収集していきます。データ収集方法には、公開データから収集したり、アンケート調査やクラウドソーシングで収集したりする方法があります。また、自社で蓄積したデータを利用するケースも多いです。2.データ前処理をする収集したデータは、すぐに利用できる状態ではありません。エラーやノイズ、欠損値などが含まれています。これらのデータを使用すると精度が悪くなるため前処理をしてください。特徴量を採取しやすい状態にデータを変換させなければいけません。3.ラベル付けをするデータにラベル付けをしていき、AIシステムのモデルに読み込ませる教師データを作成していきます。教師データを読み取ることで、AIに未知のデータが入力された時に正誤の判断ができるようになります。AIシステムの精度を決めるため、正確にラベル付けをしていきましょう。補足:アノテーションサービスで業務効率化しようAIシステムの精度を決めるデータセットには、10万枚程度の教師データが必要です。これらの膨大な数の教師データ作成の内製化は現実的ではありません。しかし、アノテーションサービスを利用すれば、膨大な数の独自データを作成できます。AIシステムの競合優位性はマクロデータで決まるため、独自データを効率的に作成していきましょう。 高精度なAIシステムを開発する3つのポイントデータセットの作成方法をご紹介してきましたが、高精度なAIシステムを開発するためのポイントを押さえておきましょう。独自収集データで教師データを作成するAIシステムのモデルに読み込ませる教師データは、独自データの方が精度が高くなります。オープンデータを活用すれば、アノテーション業務の必要はなく膨大な数のデータを簡単に収集できます。しかし、オープンデータで開発したAIシステムは競合優位性に劣ります。他社開発のAIシステムより優れたシステムを開発したい場合は、独自収集データで教師データを作成しましょう。また、社内の業務効率化や生産性向上のためにAIシステムを導入する場合も、独自データで教師データを作成した方が業務効率化が実現しやすいです。オープンデータセットのクレンジングを行う2021年4月に、画像認識のデータセットの代表格「ImageNet」の教師データにラベルの誤りがあることが報告されました。写真に写っている人物の同意なしに取得された顔写真や、人種差別的なラベルが付けられていることが議論されています。また、5.8%のラベルエラー率が発覚しました。オープンデータは誰でも気軽に利用できるものですが、100%正確なデータではありません。オープンデータのクレンジングを行って、正しいデータに調整する必要があります。AIシステムのUI・UXにこだわる オープンデータをフル活用したAIシステムは競合優位性に劣ると説明しました。しかし、AIシステムのUIやUXにこだわることでリカバリーができます。ユーザー目線を大切にしたUIやUXにすれば、多くのユーザーに選ばれるAIシステムが開発できます。まとめ今回は、データセットの取得方法について解説しました。オープンセットを活用する方法とデータセットを独自作成する方法があります。最後に双方のメリット・デメリットを押さえておきましょう。いかがでしたでしょうか?双方の特徴を把握した上で、データセットを作成していけば、高精度なAIシステムが開発できます。ぜひ、マクロの独自データ作成をお考えの方は「FastLabel」までご相談ください。本記事やFastLabelプラットフォームに興味のある方はお気軽にお問い合わせください▼