アノテーションは、AI精度に大きな影響を与える重要な作業です。現時点では、アノテーション作業の自動化により、高品質なデータは作成できないことが分かっています。そのため、教師データを作成しなければいけません。しかし、膨大な数の教師データを社内で作成することは難しいです。また、外部委託をしても、コミュニケーションコストが膨れ上がったり、コミュニケーションロスに伴う品質低下などの問題が出ます。このように、さまざまな問題が出るアノテーション作業は、どのように効率化していけば良いのでしょうか?この記事では、アノテーション作業を効率化するコツをご紹介します。アノテーション作業とはアノテーション(annotation)作業とは、テキスト・音声・画像・動画のデータに正解ラベルを付ける作業をいいます。例えば、AIモデルに猫の写真を読み込ませても「これは猫です。」と学習することはできません。猫の写真に「猫」と正解ラベルを付けることによって、AIモデルが理解するようになります。猫の特徴について教師データから学習したAIモデルは、他の写真を見たとき「これは猫です。」「これは猫ではありません。」と判別できるようになります。膨大な数の教師データを学習させるほど、AIモデル判別の正解率を上げることができます。(出典元:AI開発でよく耳にする「アノテーション」とは?)アノテーション作業の問題点アノテーション作業はAI開発の重要な部分を担いますが、内製化が難しいです。アノテーション作業の内製化で立ちはだかる壁とは何なのでしょうか?ここでは、アノテーション作業の問題点について解説します。ヒト膨大な教師データを作成するためのアノテーターが必要になりますが、十分なアノテーター数を社内で確保するのは苦労します。アノテーターを採用しても、AI開発の目的への理解や、アノテーション手法やルールの統一ができなければ認識ミスが起きやすくなります。また、品質の高いアノテーションを実施するために教育に時間を割かなければいけません。また、AI精度を確認した際にスケールアップが必要になることがよくあります。このような不測のスケールアップに対して内製化では対応できません。コスト優秀なAIエンジニアにアノテーション作業を任せると採算が合わなくなります。また、パートを採用したら教育コストが発生します。アノテーション作業費を安く抑えようと内製化を検討する方もいますが、外部委託する場合と比べて高くついてしまうケースがよくあります。ノウハウアノテーション作業を効率化するノウハウが、ナレッジで蓄積されていないと悩む企業も多いです。アノテーション作業の効率化にはいくつかコツがあり、作業負担を大幅に削減できます。作業効率化の手順やノウハウがなく、作業開始後に想定以上の時間がかかってしまうことは良くあることです。最悪の場合は、スケジュールが大幅に遅れてしまうことがあるので注意しましょう。アノテーション作業には、3つの課題があると説明しました。しかし、アノテーション作業を効率化するためのコツを押さえておけば作業時間の短縮化を図ることができます。ここでは、アノテーション作業効率化のコツをご紹介します。1.アノテーションルールを統一するアノテーターの作業品質を確認し、アノテーションルールを統一しましょう。教師データの品質は一定基準を満たさないと、AI精度が落ちてしまいます。そのため、作業を実施するアノテーターがきちんとアノテーションのルールを理解し、ルールに従った教師データ作成ができるか確認してください。最近ではアノテーションツール上に、オンボーディング(事前にアノテーションテストを実施し、メンバーにアノテーションルールを徹底させる機能)があるプラットフォームもあります。サンプルデータと比較して、作業品質を確認するツールがあるので使用してみましょう。2.作業の進捗状況を可視化するアノテーション作業の効率化を実現するために、進捗状況を可視化できるプラットフォームを活用しましょう。アノテーター毎の進捗状況を可視化すれば管理が楽になります。また、ラベル付けの正解、不正解の確率まで可視化し正当な評価を行えば、アノテーターのモチベーションを上げられます。https://fastlabel.ai/blog/annotation-point3.コメント機能を活用するアノテーション作業を効率化したい方は、データに添えられるコメント機能が搭載されているプラットフォームを活用しましょう。クラウド上でデータ共有をして、修正箇所を指定してコメントを添えておくことで、認識相違によるミスを防ぐことができます。口頭ベースで修正依頼すると認識相違が発生します。何度も修正を依頼する事になることもあります。そのため、コミュニケーションコストを抑えたい方はコメント機能を活用しましょう。4.プラットフォーム上でデータ共有するアノテーション作業では、データの送受信に注意しなければいけません。依頼者とアノテーターがデータの送受信を繰り返すことになり、どのデータが最新であるか分からなくなる恐れがあります。また、教師データ作成で認識のズレが発生したら、コミュニケーションコストが膨れ上がってしまうでしょう。このような問題は、プラットフォーム上でデータ共有することで解決できます。5.アノテーションサービス会社に協力を仰ぐアノテーション作業を外部委託する場合は、専門のアノテーションサービス会社を利用するようにしましょう。アノテーション作業前には、認識相違によるミスを防止するためにマニュアルを作成する必要があります。また、必要に応じてプロジェクト管理が必要です。アノテーションサービス会社であれば、アノテーター作業を委託できるだけでなく、マニュアル作成やプロジェクト管理までお任せできます。豊富な実績や経験を持つ会社であれば、手厚いサポートをしてもらえて業務効率化が実現できます。 アノテーション作業のコスト削減の方法次にアノテーション作業のコスト削減の方法をご紹介します。1.サンプルアノテーションを依頼するアノテーション作業を外部委託する場合は、委託業者にサンプル画像の提供とともに、サンプルアノテーションを依頼してみてください。その業者の品質レベルが確認できるとともに、業者側も作業工数を正確に見積もれるため、見積のブレが出にくくなります。2.従量課金型の業者を利用するアノテーション作業を外部委託する場合は、料金体系を確認してください。主に「定額課金型」と「従量課金型」の2つに分けられます。定額課金型の場合は、基本料金が定められており下限額は変動しません。そのため、少量の教師データ作成を依頼したい場合は料金が高くなってしまいます。従量課金型であれば、少量の枚数でも適正価格でアノテーション作業をお任せできます。3.品質保証を提供する業者を利用するアノテーション作業の品質に自信を持っている業者は、品質保証を提供しています。品質保証を提供している業者に依頼をすれば、修正を依頼して工数が延びても追加料金が請求されることはありません。そのため、追加料金のトラブルが心配な方は、品質保証を提供する業者を利用してください。 4.データセットを活用するオープンデータセットを活用すれば、アノテーション作業の負担を軽減できます。アノテーション作業のコストを削減したい方は、オープンデータセットを積極的に活用していきましょう。Googleが提供する『Open Images Dataset』には、約900万枚の教師データが公開されています。このようなデータを活用して教師データを増やしていきましょう。 5.まとめて依頼するアノテーション作業は、膨大な件数ほどボリュームディスカウントしやすいです。ただし、AIの開発コストを考えると、むやみやたらにデータ量を増やすことは賢明な判断とは言えません。AIの目的に合わせてどういったアノテーションデータがどれくらい必要か予測をしながら依頼をしましょう。また、外部のベンダーに固定のリソースを発注しておき、開発のタイミングに合わせていつでもアノテーターを使える状態にしておくのも1つの手と言えます。https://fastlabel.ai/blog/annotation-priceアノテーション作業の注意点アノテーション作業を行う場合は、以下の点に気をつけてください。コスト削減による品質低下を避けましょうアノテーション作業を依頼する場合は、データ品質にはコストをかけるようにしましょう。教師データはAI精度に影響するものなので、ダブルチェックによって品質を担保してください。シングルチェックによりコスト削減は簡単にできますが、教師データの品質は落ち、AI精度が低下する可能性がありますのでおすすめしません。https://fastlabel.ai/blog/annotation-priceデータセットには目を通すオープンデータセットを活用すれば、大量のデータ収集が行えます。アノテーション作業の負担を減らすためにも、オープンデータセットは積極的に活用していくべきです。政府や有名企業が研究支援を目的にデータを公開していますが、データのラベル付けが100%正解とは限りません。そのため、データセットを活用して、データ量の水増しをする場合はデータクレンジングを実施して下さい。https://fastlabel.ai/blog/data-collectionマニュアルを作成しておくアノテーション作業を開始する前に、マニュアルを作成しておきましょう。依頼者とアノテーター側で認識相違によるミスが発生したら修正が増えてしまいます。アノテーションの依頼先により異なりますが、工数が増えた分だけ追加料金を請求してくる業者も存在します。修正依頼をした結果、追加料金が請求されるなどトラブルを防止するためにもマニュアルを作成しておきましょう。https://fastlabel.ai/blog/annotation-price(出典元:【AI】画像アノテーションの外注費はいくらが相場か?)まとめ今回は、アノテーション作業効率化のコツをご紹介しましたが、最後におさらいをしておきましょう。 【アノテーション作業効率化のコツ】アノテーションルールを統一する作業の進捗状況を可視化するコメント機能を活用するプラットフォーム上でデータ共有するアノテーションサービス会社に協力を仰ぐ【アノテーション作業のコスト削減の方法】サンプルアノテーションを依頼する従量課金型の業者を利用する品質保証を提供する業者を利用するデータセットを活用するまとめて依頼するFast Labelは、アノテーション作業効率化を実現するプラットフォームを提供しています。プラットフォームの提供だけではなく、専門家によるBPOの提供も可能です。そのため、アノテーション作業の効率化を検討している方は「FastLabel」までお気軽にご相談ください。