オープンデータセットは、政府や研究機関だけではなく、民間企業も公開し始めました。これらを活用すれば、AI開発業務の効率化が図れます。オープンデータセットは、なぜ公開されているの?どのようなオープンデータセットがあるの?オープンデータセットを使用する場合の注意点はあるの?今回はオープンデータセットの種類と活用時の注意点まで詳しく解説します。オープンデータセットとは「The Open Data Handbook(※)」によると、オープンデータとは自由に使用ができ、誰でもダウンロードできるデータのことを指します。AI分野の促進を目的として、政府や民間企業がデータを公開しています。これらのデータを活用すればAI開発の効率化が図れるため、積極的に活用していきましょう。(※)オープンナレッジ財団が公開している「The Open Data Handbook」では、オープンデータの法的・社会的・技術的な側面に関する情報がまとめられています。オープンデータを利用する前に一読することをお勧めします。オープンデータの歴史オープンデータという言葉が世界中で使用されるようになり、本格的に取り組み始められたのは2009年からです。2013年度にG8サミットにて「オープンデータ憲章」が採択されて、政府の情報を原則公開して、さまざまな研究分野に役立たせるという方策が決まりました。データを公開する理由オープンデータを公開する理由は(1)行政の透明性の確保(2)研究分野の発展への寄与です。(1) 行政の透明性の確保主権者である国民は国内政策に関する行政の意思決定について知る権利があります。しかし、政府のデータが不透明な状態だと正当な評価ができません。このような問題を回避するために、行政データを公開して透明性を確保するためにオープンデータを公開しています。(2) 研究分野の発展への寄与オープンデータは、さまざまな研究分野を発展させるために公開されています。調査会社IDC「国内AIシステム市場予測」では、2021年度のAIシステム市場規模は約2,119億円。年間平均成長率は25.5%で推移し、2025年には4,910億円に成長すると予測されています。広く社会に利用してもらうため、AI開発に必要なデータセットを公開して発展に寄与しているのです。オープンデータと自社データとの違いオープンデータは誰でも気軽に利用できます。オープンデータを活用すれば、AI開発は効率的に行えるでしょう。しかし、オープンデータセットのみで開発したAIシステムは競合優位性が劣ります。テキスト読解など汎用型AIシステムには、オープンデータが有効的です。自社製品の検品作業をAIで自動化するなど特化型AIシステムには自社データを利用するようにしましょう。補足:自社データの収集・作成をする場合はAI開発に必要な自社データの収集・ラベル付けは想像以上に大変です。ラベル付きのデータ作成業務を「アノテーション業務」と呼びますが「コスト」「リソース」「ノウハウ」が大きな問題となりがちです。自社でアノテーション業務を完結することが難しい場合は、ぜひ、AI開発支援会社FastLabelへお任せください。リコー、ソニー、デンソーなど大手企業から先進的なベンチャー企業まで導入されています。アノテーション業務に関しては「アノテーション業務とは?精度向上と業務効率化を実現するポイント」を参考にしてみてください。 【提供別】オープンデータセットオープンデータセットを活用すればAI開発業務が効率化できます。実際に、どのようなデータセットがあるのでしょうか?ここでは「政府」「研究機関」「民間企業」によるオープンデータセットをご紹介します。データセットを活用する場合は、信頼度の高いソース元のデータを活用しましょう。政府DATA GO JP日本政府が公開しているオープンデータのカタログサイト。公開されているデータは二次利用が可能国立情報研究データリポジトリ国立情報学研究所のデータセット利用研究開発が運営するデータセット。コミュニティを繋いで各研究を活性化するなどの役割を担っているe-start政府統計の総合窓口が公開している政府統計ポータルサイト。日本に関するあらゆる統計データが閲覧できる財務省 国債金利情報1974年以降の日本の金利情報が閲覧できる。EDINETEDINETは、「金融商品取引法に基づく有価証券報告書等の開示書類に関する電子開示システム」。有価証券報告書・有価証券届出書・その他の開示書類が電子開示されている研究機関Harvard Dataverseハーバード大学が提供するオープンデータセット。AI開発に役立つ500件以上のデータセットが公開されているUC Irvine Machine Learning Repositoryカリフォルニア大学が提供するオープンデータセット。AI開発に役立つ400件以上のデータセットが公開されている首都大学東京 自然言語処理研究室首都大学東京自然言語処理研究室(小町研)が提供するコーパス・辞書・評価データセット。AI開発に役立つ国内向けのデータセットが公開されている民間企業Google Dataset SearchGoogleが開始したデータセット検索サービス。2020年に正式にリリース。サイトを活用すれば、世界中からデータセットを検索できるfacebook research DatasetAIの最先端技術を研究して全体のAI技術の底上げを目指しているAI研修集団「facebook research」が公開しているオープンデータ。メッセンジャーアプリ開発に役立つデータセットが豊富Registry of Open Data on AWSAmazon AWSのパブリックデータセット。画像分類や自然言語処理の学習に使えるデータセットなどを公開。AWSとも連携が可能Microsoft Research Open DataMicrosoft社が提供しているオープンデータセット。Azureと連携が可能楽天楽天の技術研究所がAI開発の発展を目的に公開しているオープンデータセット。楽天の商品レビューやアノテーション付き画像を公開している 【種類別】オープンデータセットオープンデータセットは信頼できるソース元のものを使用すべきと説明しました。しかし「画像」「動画」「テキスト」「音声」とカテゴリ別のデータを探している方もいるのではないでしょうか?そのような方のために、種類別のオープンデータセットをまとめてご紹介します。画像MegaFaceワシントン大学が提供している顔認識用のデータセット。世界各国の顔画像が公開されているGoogle Open Image VGoogleが提供している画像に特化したデータセット。900万件以上の画像データが公開されているFlickr Logos datasetアテネ国立工科大学が公開しているデータセット。世界の都市のアノテーション付き画像が見つかるStanford Drone Datasetスタンフォード大学が公開しているデータセット。ドローン空撮した画像が公開されている画像のデータセットをお探しの方は「AIのための画像データセット大辞典【人物・動物・食べ物・自動車・ファッション】」も参考にしてみてください。動画YouTube-8M DatasetGoogle研究チームが公開する動画用データセット。タグ付けされた800万本ものYouTube動画が公開されている。人間が検証したラベル付け動画が利用できるYouTube-BoundingBoxes Dataset動画にバウンディングボックスがラベリングされた大規模なデータセット。24万件の動画のデータセットが公開されているKineticsグーグル系AI企業として知名度を誇るDeep Mindが公開しているデータセット。65万件の動画のデータセットが公開されているBDD100K: A Large-scale Diverse Driving Video Databaseカリフォルニア大学のAIラボが公開する自動運転向けの動画データセット。道路オブジェクトのバウンディングボックス、運転可能領域、車線のマーキングなどのラベルが付与されているテキスト自然言語処理のためのリソース京都大学が公開しているオープンデータセット。自然言語に役立つデータセットがまとめられている青空文庫著作権が消滅した作品や著者が許諾した作品のデータが公開されている Wikipedia Links dataWikipediaの全文をデータセットとして公開されているクックパッドデータセットクックパッドに掲載されている172万品のレシピや献立に関するデータを公開されている音声AudioSetGoogleが公開しているデータセット。人間の声や動物の鳴き声、楽器の音などラベル付きの音声データが公開されているMozilla Common VoiceMozillaが提供するオープンデータセット。18言語の音声データが公開されている日本声優統計学会日本声優統計学会が公開するオープンデータセット。独自に構築した音声データが公開されている。プロの声優による音声データオープンデータを活用する際のポイントオープンデータをご紹介してきましたが、活用する場合は以下のポイントを押さえておきましょう。要件定義から始めるまずは、AI開発の目的や現場の課題を明確にしましょう。どのような目的でAI開発するかに応じて、オープンデータを活用すべきか、それとも自社データを活用すべきかが決まります。また、どのようなオープンデータセットを活用するかも変わってきます。そのため、データ活用前にAI開発の要件定義をしておきましょう。データソースを確認する2012年頃から活性化して、さまざまなオープンデータセットが公開されるようになりました。この記事では「政府」「研究機関」「民間企業」が提供しているオープンデータセットをご紹介しましたが、個人の方も公開しています。しかし、AI開発にデータを活用する場合はトラブルを防止するためにも、信頼できるデータソースからデータを取得するようにしましょう。オープンデータの利用規約を確認するオープンデータ憲章により、政府が公開しているオープンデータは利用規約が定められていません。しかし、研究機関や民間企業が提供しているオープンデータの利用規約は、それぞれ異なります。そのため、研究機関や民間企業が提供するデータセットを活用する前に利用規約を読んでおきましょう。データクレンジングを行うラベル付きのデータセットを利用すれば、AI開発が効率化できます。しかし、データセットのラベル付けが100%正確な保証はされていません。また、自社に見合うラベル付けをする必要も出てくるでしょう。そのため、データセットのクレンジングを忘れずに行いましょう。自社データも併用して活用するオープンデータセットだけで開発したAIは競合優位性に劣ります。競合他社が開発するシステムよりも優れたシステムを開発したい場合、自社データも活用して精度を上げていきましょう。現場から取得したデータが多ければ多いほど、AIシステムの精度を上げることができます。オープンデータセットの活用事例最後にオープンデータセットの活用事例をご紹介します。ぜひ、オープンデータセットの活用方法の参考にしてください。行政福井県鯖江市では、観光情報や人口統計、避難情報などさまざまなデータを公開しており、民間企業と協働して市の活性化に取り組んでいます。このような取り組みにより、市営バスの運行情報がリアルタイムで確認できるアプリケーションの開発に成功しました。製造業某半導体メーカーでは、雨量の実績や河川の水位情報などのオープンデータを活用。大雨の際に川の水位予測ができ、氾濫警戒域に達するか予測できるようになりました。氾濫対策の初動が早くなり余裕を持った対策が立てられるため、工場の安定運営に活用しています。観光ココシル札幌は、オープンデータを活用した観光アプリです。現在位置に合わせて交通機関の利用方法や観光地の開設がしてもらえます。この観光アプリは6ヶ国語に対応しており、札幌観光をより充実させています。参照元:https://blog.predictionone.sony.biz/data_analysis/index/open_data0.htmlまとめ今回は、AI開発に役立つオープンデータセットをご紹介しました。政府・研究機関・民間企業など、さまざまな機関が研究発展のためにオープンデータを公開しています。これらを活用してAI開発の効率化を図りましょう。最後にオープンデータセット活用時の注意点をおさらいしておきましょう。課題の特定から始めるデータソースを確認するオープンデータの利用規約を確認するデータクレンジングを行う自社データも併用して活用するぜひ、気になるオープンデータセットがありましたら、活用してみてください。