企業のDX推進は加速しています。業務効率化や自動化を目指す『守りのDX』だけではなく、デジタル技術を使用して新たなサービスを創出する『攻めのDX』も増えてきました。中でもAI技術の進歩により多くの業務が自動化・効率化されています。例えば、一人ひとりの顔を認識する顔認証や個人の好みに合わせたおすすめを表示するレコメンドシステム、手書きの文字を読み取るOCRなど身近に触れるWebアプリケーションの多くでAIは活用されています。そして、これらのAIの精度を左右するのが『アノテーション業務』です。AIを活用したサービス・システム開発を検討している方は、アノテーション業務に関する理解を深めましょう。この記事では、アノテーション業務の基本概要から業務効率化までを詳しく解説します。[AI開発]アノテーション業務とはまずは、アノテーション業務の基本概要を解説します。アノテーションとはアノテーション(annotation)とは、機械学習用の教師データを作成する業務を指します。教師データとは、例題とその答えに関するデータであり、機械学習が出力結果の正否を判断して最適化を図るために使用されるものです。例えば、画像認識技術を活用した高精度の不良品検知、データ分析による顧客に見合う保険商品の提案など高精度なAIを開発するためには、大量の高品質な教師データが必要です。そ開発したいシステムに応じて必要な教師データの数は異なりますが、10,000~100,000ほどの教師データが必要になります。これらの教師データは品質を担保しなければいけません。。AI開発において、教師データはその精度を左右する肝であり、アノテーション業務は重要な役割を担っていると言えます。アノテーション業務の手順アノテーション業務の手順は次の通りです。ここでは画像データを使う場合の例を記載します。1.データ収集最初に機械学習に読み込ませるためのデータを集めて、データの前処理を行います。データの前処理は、画像から特徴量を取り出しやすくするために行います。例:犬や猫が写った画像を準備してノイズを除去する2.ラベル付け機械学習に読み込ませるためにデータにラベル付けを行います。AIの精度を決める教師データを作成するステップであるため、適切なアプローチ方法(社内・アウトソーシング・クラウドソーシング・プラットフォーム)を選択してください。例:各画像に『犬』『猫』のラベルを付ける3.学習作成した教師データを機械学習に読み込ませます。するとアルゴリズムはそのデータに基づき正否を判別できるようになります。例:機械学習にラベル付けをした教師データを登録する4.テスト評価テスト画像を読み込ませて、正確にデータ判別できるかテストを実施します。理想的な要件を満たしているかを評価していきます。例:画像を読み込ませて『犬』『猫』を判別できるかを確認するアノテーションの必要性近年、AI搭載型チャットボットやAIロボットなどによるDXが注目を浴びています。IT専門調査会社IDC Japanの調査報告書『国内AIシステム市場』では、2020年度の市場規模は1,579億8,400万円(前年比成長率47.9%)。年間平均25.5%で拡大していき、2025年度の市場規模は4,909億8,100万円になると予測されています。この結果から、今後もAの需要が伸びることがわかります。アノテーション業務は、AIの精度を左右するものです。今後もAIシステムの市場規模は拡大するため、高精度なAIを開発するためにアノテーション業務は必要不可欠なものとなります。アノテーション業務の種類アノテーションを行うデータの種類としては(1)テキスト(2)画像や映像(3)音声の3つに分類できます。(1)テキストテキストのアノテーション業務は、テキスト文書に定義したカテゴリを割り当てる作業をいいます。カテゴリを割り当てることで、事前に決めた分類項目に沿って集計や分析が行えるようになります。テキストの教師データは、AI搭載型チャットボットに用いられていることで有名です。[ユースケース]ナンバープレート識別、キャッチコピー生成(2)画像や映像画像や映像のアノテーション業務は画像から物体を検出したり、画像の分類や抽出したりするために行います。作業には、物体検出・領域抽出・画像分類があります。物体検出…画像に写っている対象物を囲い込んでラベルを付ける領域抽出…画像の対象物に色を塗ってラベルを付ける画像分類…属性に関するラベルを付ける[ユースケース]商品検出・領域分割・商品分類・人物カウント(3)音声音声のアノテーション業務は、音声データを書き起こす前処理が必要です。テキスト化した文章の単語1つ1つに意味をタグ付けしていき教師データを作成します。[ユースケース]商談や議事録の書き起こし・コールセンター・音声入力検査 アノテーション業務の課題アノテーション業務はAIの精度を左右する重要な作業です。しかし、アノテーション業務には3つの課題があります。品質の担保アノテーション業務で作成する教師データは、品質を担保しなければいけません。たとえば、自動運転を実現するために機械学習モデルに信号を認識させたい場合は、信号の映像・画像を正確に指定して読み込ませる必要があります。教師データの品質が低いと、上手く信号を識別できずに事故を招く恐れがあるため注意してください。高品質なAIを開発するためには、アノテーション業務のルールを統一し、教師データの品質を均一化する必要があります。そのため、アノテーション業務の担当者に応じて品質が変わりやすいです。納期システム開発の失敗例として、希望納期に間に合わないことが挙げられます。AIサービス開発の上流プロセスであるアノテーション業務は、膨大なデータにラベル付けを行わなければいけません。ラベル付けの認識違いによる手直しも発生しやすいため、納期に影響が出やすいです。AIの精度向上のために教師データの品質を担保しながら、膨大なデータのラベリングをするアノテーション業務は大きな負担に感じるでしょう。実際に、社内リソースが足りない問題も起きやすいです。したがって、納期に間に合うように業務効率化の方法を検討していきましょう。専任者の採用教師データを作成する場合は、利用用途に応じたデータ前処理が必要です。特徴量を判別しやすくするために、どのようにデータを前処理をするべきか適切に判断しなければいけません。また、AI開発の一連の流れが理解できなければ、ラベルの認識違いによる手直しが発生します。このような問題を防止するために、アノテーション業務専任者の採用をおすすめします。プログラムのコーディング経験があり、AIプロダクト品質保証ガイドラインを熟知しているエンジニアが理想的です。アノテーション業務効率化の方法AI開発には、大量の高品質な教師データが必要だと説明しました。そのため、AI開発の品質担保や納期遵守のために、アノテーション業務の効率化を検討する必要があります。どのような業務効率化の方法があるのでしょうか?ここでは、アノテーション業務効率化の方法をご紹介します。能動学習社内でアノテーション業務を行う場合は、能動学習(Active Learning)が効果的です。モデルの学習に有効な教師データから作成するために、まずは、ラベル付けすべきデータかをふるい分けします。その次に、モデル学習に有効であるデータからラベル付けをしていきます。このような方法で社内で行うアノテーション業務を効率化できますが、アノテーション業務を外注した方がコスパが良い場合があるので比較・検討をしてみてください。既存データセットを使用した事前ラベル付け既存データセットを活用してアノテーション業務を効率化する方法もあります。既存データセットとは、すでにラベル付けされているデータのことをいいます。Googleが提供している既存データセット『Open Images Dataset』には、約900万枚のラベル済みの教師データが提供されています。このような既存データセットを活用して、モデルを学習し、推論結果をラベルとして利用することで業務効率化を図ることも可能です。アノテーション代行サービス膨大な教師データを作成するアノテーション業務に必要なリソースを社内で確保するのは難しいです。そのため、多くの企業では外部のアノテーションサービスを利用してアウトソースする方法が選ばれています。アノテーションサービスは、アノテーション業務に特化をしているため、高品質な教師データを短期間で作成してくれます。アノテーション業務を外部委託すれば、社内ではプロダクト開発に必要な重要業務にリソースが充てられるようになるでしょう。アノテーションサービスの選び方アノテーション業務のリソースを社内で確保できない場合は、アノテーションサービスを利用しましょう。しかし、AIの精度を左右するため信頼できる業者に外部委託をしてください。ここでは、アノテーションサービスの選び方をご紹介します。テクノロジーを活用した効率化を実施しているアノテーション業務は品質とスピードが求められます。そのため、簡単なデータのラベル付けをテクノロジーで自動化して、複雑なラベル付けを専任スタッフで行うなど業務効率化を実施しているアノテーション代行業者を選びましょう。テクノロジーを活用した業務効率化はスピードだけではなく、ヒューマンエラーを防止できます。また、専任スタッフのラベル付けの工数が削減できるため、コストダウンの恩恵も受けられます。プラットフォーム上で進捗状況が確認できるアノテーションサービスの中でも、プラットフォーム上で教師データ作成の進捗状況が確認できるサービスを選びましょう。アノテーション業務を外部委託する場合は、データの送受信に注意しなければいけません。何度も送受信を行うと最新データがわかりづらくなります。また、データ教師のラベル付けに認識のズレが発生すると、手戻りが発生する恐れがあります。このような問題は、共有データや進捗状況の可視化によって解決できます。プラットフォーム上で一元管理すれば常に最新のデータを共有できて認識齟齬も発生しにくくなるでしょう。 オンボーディングを実施しているアノテーション業務で作成する教師データの品質は一定基準を担保しなければいけません。そのため、オンボーディングを実施して、即戦力の人材を確保している業者に依頼をしましょう。オンボーディングとは、欧米で取り組まれている教育・育成プログラムです。新しく組織に入ったメンバーの即戦力化させるための研修です。 明瞭会計で追加料金が発生しないアノテーション業務は、発注者側と受託者側の認識齟齬で手戻りが発生するリスクがあります。認識齟齬で作業の工数が増えた結果、見積金額と請求金額が大きく乖離するトラブルも多いです。このような料金トラブルを防止するために、追加料金が発生しないアノテーションサービスを利用しましょう。また、少量の教師データ作成を依頼したい場合は、従量課金型のアノテーションサービスを利用するとコストが抑えられます。柔軟なサポート体制があるアノテーションサービスを利用すると、さまざまな要望が出てきます。たとえば、誤ラベルの数をチェックしたいなどの要望が出てくるかもしれません。このような要望が出てきたときに、サービスへ反映してくれる柔軟な対応力を持つ業者を選びましょう。アノテーション業務はAIの精度向上のために、定期的に改善していく必要があるため、アノテーション代行業者とは長期的な付き合いとなります。そのため、満足のいくサポートサービスが提供されているかを確認してみてください。 アノテーション業務効率化の成功事例アノテーション業務効率化の方法をご紹介してきました。アノテーション業務の内製化もできますが、膨大なデータを取り扱うためアノテーションサービスを利用するのが一般的でしょう。ここでは、アノテーションサービスを利用して業務効率化を実現した成功事例をご紹介します。[Case1]プラットフォームを活用して認識齟齬を改善睡眠中の園児たちを見守る『ルクミー午睡チェック』を開発したユニファ株式会社。園児の表情認識の教師データを作成する際の認識齟齬が課題として上がっていました。園児の表情の判別は想像以上に難しくて、検収の際のチェックコストが負担となっていました。このような課題は、プラットフォーム上でアノテーション業務が行えるサービスに切り替えるこおで改善。園児の表情認識の判別が難しい場合は、プラットフォーム上でコミュニケーションを取り合うことで、検収後の手戻りが失くすことに成功。社内の検収コストも削減できました。[Case2]アノテーターの教育・育成の効率化に成功建設業界の生産支援サービス『Photoruction』を開発する株式会社フォトラクションは、アノテーターの教育に課題を感じていました。建築図面を読み取れるアノテーターを採用しなければいけないため、教育は避けて通れません。マニュアルを用意していましたが、認識齟齬があるまま作業が進められてしまうトラブルが起きました。この問題を解決するために導入したのが、オンボーディング機能が搭載されているアノテーションサービスです。作業前にアノテーターの方にテストを受けてもらい、一定基準を超えた方しかアノテーション業務に入れないように制御をかけました。テストに落ちたアノテーターはマニュアルを読み直してもらいます。このような仕組み化により、アノテーターの教育の効率化を実現しました。[Case3]設計士の業務時間を4分の1に短縮マンションの間取り図を半自動で読み込みCADデータ化する『BLUEPRINT BY RENOSY』を開発している株式会社GA technologies。同社ではAIの精度を上げて、設計士の業務効率化の実現を目指していました。しかし、クラウドサービスにアノテーション業務を外部委託すると、教師データの品質が低下する課題を抱えていました。この問題を、プラットフォーム上で密なコミュニケーションが取ることで解決。コメント機能が搭載されているプラットフォームを活用すれば、お互いに時間が合わせられなくても密なコミュニケーションは取れます。このようなアノテーション業務改善により『BLUEPRINT BY RENOSY』の精度は大幅にアップ。設計士の業務時間を4分の1に短縮できるAIシステムが開発できました。その他のアノテーション業務効率化の成功事例は『FastLabel導入事例』を参考にしてください。まとめAIの精度を上げるためには、高品質な教師データが欠かせません。膨大な数の教師データを作成する場合は、内製化でも外部委託でもアノテーション業務の効率化が必要です。一般的には、膨大な数の教師データを用意しなければいけない場合は、アノテーションサービスを利用する方が多いです。しかし、外部委託先は慎重に選んでください。この記事では、アノテーションサービスの選び方をご紹介しました。ぜひ、教師データ作成をご検討されている方は参考にしてみてください。本記事やFastLabelプラットフォームに興味のある方はお気軽にお問い合わせください▼