AIが機械学習を行うためには「教師データ」が必要です。高精度なAIを開発するためには、大量の教師データをAIモデルに読み込ませる必要があります。これらの教師データは、どのように作成すべきなのでしょうか?教師データを作成する上での注意点はあるのでしょうか?この記事では、教師データを作成する上での注意点について解説します。教師データとは教師データとは、機械学習で用いられるデータセットのうち「例題」と「正解」がペアになっているデータをいいます。AIモデルに教師データを読み込ませて訓練していくと、未知のデータに対して「不正解」「正解」を導き出して出力できるようになるのです。例えば、例題の猫の画像に正解「この画像は猫です」とラベル付けしたデータをAIモデルに読み込ませたとします。猫の特徴を学んだAIモデルは、他の画像を見て「猫かどうか?」を判断していくことができるのです。このように。AIモデルの機械学習のために必要なデータを「教師データ」と呼びます。 機械学習で分析できるデータAIモデルが機械学習で分析できる主なデータは「テキスト」「画像」「動画」「音声」です。テキストAIモデルは機械学習によりテキストの分析ができます。テキストを定義したカテゴリに割り当てる作業の自動化が行えます。事前に決めたカテゴリに従ってタグ付けしておくことで、集計や分析を容易にできるのです。この仕組みを活用すれば、SNS投稿の情報を分類したり、不適切な情報を抽出したりできます。画像AIモデルは機械学習による画像の分析ができます。画像の中の物体を検知する方法として「物体検出(物体の位置を特定する)」「領域抽出(物体の領域まで特定する)」「画像分類(画像の中の物体が何であるか特定する)」の3つがあります。コロナ禍では、物体検出の仕組みを活用した顔認証システムが普及しました。動画AIモデルは機械学習により動画の分析ができます。映像の中の物体を特定したり追跡したりでき、高度な監視技術を持つカメラが開発できるとして注目を浴びています。しかし、動画のフレーム1枚1枚に正解ラベルを付与する必要があるなど、教師ラベル作成が大変という課題があるため克服していかなければいけません。 音声AIモデルは機械学習により音声の分析ができます。音声データの書き起こしをしたり、テキスト化された音声データに誤りがないか確認したりします。音声を聞き取るために、音声の単語1つ1つに意味をタグ付けした教師データを用意する必要があります。 機械学習で必要な教師データの作成方法AIモデルに教師データを読み込ませると、各データが分析できると理解して頂けたと思います。この教師データは、どのように作成するのでしょうか?次に教師データの作成方法をご紹介します。1.データを収集する最初に教師データを作成するためにデータを収集します。データ収集の方法には次のようなものがあります。データ収集について詳しく知りたい方は「AI活用・分析には必要なデータ収集が鍵!AI開発で抱える課題とは?」を参考にしてみてください。2.データの前処理を行う次に収集したデータの前処理を行ってください。収集データはエラーやノイズ、欠損値が含まれています。これらを取り除かずに使用すると教師データの品質が低下します。特徴量を採取しにくい教師データをAIモデルに機械学習させると、精度が落ちるため気をつけなければいけません。特徴量を採取できる状態にするため、データの前処理は必ず行いましょう。3.ラベル付けをするデータにラベルを付けて教師データを作成していきます。AIモデルは教師データを読み取ることで、未知のデータが入力されたときに正誤の判断ができるようになります。教師データはAIモデルの精度を左右するものと言えるでしょう。そのため、データのラベル付けは正確に行いましょう。教師データを作成する業務を「アノテーション業務」と呼びます。アノテーション業務について詳しく知りたい方は「アノテーション業務とは?精度向上と業務効率化を実現するポイント」を参考にしてみてください。教師学習のデータを取り扱う上で注意点教師データを作成する場合には気をつけなければいけないことがあります。ここでは、教師データ作成の注意点をご紹介します。 1.適切な量と質の教師データを確保するAI開発には適切な量と質の教師データが必要です。適切な量と質の教師データを用意するために、データ収集をする前に、全体像を俯瞰してデータ整理しましょう。現場の課題を洗い出して、どのような教師データをAIモデルに読み込ませれば、現場に活きるAIが開発できるかを考えましょう。全体像を俯瞰することで、本当に必要なデータを特定できます。2.ラベル付けを正確に行うAIモデルに機械学習させるために教師データを用意します。教師データのラベル付けが間違えたら、AIモデルは正解と誤解して機械学習してしまいます。AIの精度に大きな影響を与えるため、教師データのラベル付けは正確に行ってください。教師ラベルを依頼する場合は、事前にアノテーターの作業品質を確認しておきましょう。3.データの解像度を揃える 教師データ収集のとき、データをリサイズして水増しをすることもあるでしょう。また、データ収集先に応じてデータの解像度は異なります。AIモデルに読み込ませる教師データの解像度がバラバラだと、精度が落ちる恐れがあります。そのため、教師データを作成する場合は解像度を揃えるように心掛けてください。4.教師データが偏らないようにする教師データの種類が偏らないように注意してください。教師データの種類が分散されているか注視しながら作成しましょう。例えば、猫を識別するAIモデルを開発する場合に「猫」「犬」「猿」のデータを用意する場合、それぞれの画像枚数が同じになるように心がけます。5.ネガティブサンプルも含める 教師データには、ネガティブサンプルを含めてください。ネガティブサンプルとは、不正解のデータをいいます。例えば、顔認証用のデータセットでは、顔が写っていない写真などをいいます。このようなネガティブサンプルを含めることで、AIモデルは段階的な機会学習を行うことができるのです。6.オープンデータを見直すラベル付けされているオープンデータを収集すれば、大量の教師データが簡単に用意できます。自社で教師データを作成する必要はありません。政府や研究機関、民間企業がAI開発研究を目的にオープンデータを公開しています。しかし、オープンデータのラベル付けが100%正解であると保証されているわけではありません。そのため、オープンデータを収集したら、必ずラベルに目を通しましょう。 7.著作権法について学ぶ 教師データを作成する場合は、著作権法について学んでおきましょう。2019年11月に改正著作権法が施行されました。この著作権法では、情報解析を目的とするデータ利用は、著作権者の利益を不当に害しない場合は法律に違反しないと述べられています。(※著作権法第三十条の四 第二号)しかし、改正著作権法は国内の法律のため、国内でアノテーション業務を行う場合のみ有効です。国外でアノテーション業務を行う場合は、現地の著作権法について学んでおきましょう。 機械学習で必要な教師データ作成は「FastLabel」機械学習に必要となる教師データの作成方法をご紹介しました。教師データ作成にお悩みの方は「FastLabel」へお任せください。ここでは、FastLabelに教師データ作成を依頼するメリットをご紹介します。 多様な教師データ作成に対応FastLabelは「テキスト」「画像」「動画」「音声」の多様な教師データ作成に対応できます。近年、注目を浴びる動画の教師データ作成では、フレーム補完技術を活用することも可能です。AI開発支援実績を豊富に持つFastLabelは、高品質な教師データ作成の業務効率化を得意としています。最新技術を活用し、高品質な教師データを容易に作成していけることが強みです。従量課金型・品質保証付き教師データを作成するアノテーション代行業者は主に定額課金型が採用されています。定額課金型は依頼枚数に関わらず、基本料金がかかるため、少量の教師データには不向きです。FastLabelは少量の教師データ作成を気軽に依頼できるように、従量課金型を採用しています。必要な枚数の教師データに応じた料金プランとなっています。また、FastLabelは教師データ作成の品質に絶対的な自信を持っており、品質保証を付与していることも大きな特徴です。修正が発生して工数が伸びた場合でも追加料金は発生しません。そのため、安心して教師データ作成をお任せ頂けます。AI開発支援の豊富な実績FastLabelは、建設・製造・医療・小売など多種多様な業界の実績を保有しています。そのため、「AI開発で理想の結果が出るか不安」「どのような教師データを作成すれば良いかわからない」とお悩みを抱える方にもアドバイスができます。アノテーション業務を効率化するためのプラットフォームサービスも提供しているため、AI開発を検討されている方はお気軽にご相談ください。 まとめAIモデルに機械学習をさせるために教師データを用意する必要があります。最後に、教師データ作成上における注意点をおさらいしておきましょう。【教師データ作成の注意点】適切な量と質の教師データを確保するラベル付けを正確に行うデータの解像度を揃える教師データが偏らないようにするネガティブサンプルも含めるオープンデータを見直す著作権法について学ぶ教師データ作成に不安や悩みを抱えた場合は、豊富な実績を持つ「FastLabel」までお気軽にご相談ください。