これまで人工知能(AI)の開発は高度な技術を要するとされてきましたが、多くのノウハウやフレームワークが登場したことで、身近なテクノロジーへと進化してきました。数あるAI開発のアプローチの中でも、教師あり学習は導入難易度が低いということから、積極的に採用されています。今回は、AI開発の現場で教師あり学習が好まれている理由や、どのような運用方法が選ばれているのかについて、ご紹介します。教師あり学習とは教師あり学習は、AIに学習させるデータへ正解のデータを付与し、強化していく方法です。コンピュータが読み込んだデータの正誤判定を、正解データを参照に実行できるため、まるで教師が指導しているような様子であることから教師あり学習と呼ばれます。例えばAIに「リンゴ」の画像を認識させたい場合、リンゴの画像データに「これはリンゴである」という正解のラベルを貼り付けます。このデータを読み込んだ際、AIは自ら画像の正体を考えなくとも「これはリンゴの画像だ」ということを理解できるわけです。「リンゴ」とラベル付けされた膨大な画像データを読み込むことで、AIは「この画像はリンゴか否か」という問いに対して素早く回答ができるようになります。統計学をベースにした学習方法教師あり学習はAI分野の専門用語と考えられていますが、基本的には従来の統計学をベースにした学習方法です。後ほどご紹介しますが、AIは統計学の延長線上に位置付けられている技術であるため、それを構成するノウハウにも統計学の世界では馴染みのあるキーワードが登場します。AIや教師あり学習について理解を深めたい場合、あるいはAI人材を探したいという場合には、統計学の入門書を読み込んだり、統計学に明るい人物を登用するのが効果的です。教師あり学習の仕組み教師あり学習は、主に回帰と分類という二つの手法によって実行されています。統計学においても代表的な二つのアプローチについて、違いを確認しておきましょう。回帰回帰を一言で説明すると、学習データをもとに未来の数値予測を実行する手法です。未来予測というと大袈裟なイメージを抱いてしまいますが、あたりを見回してみると身近に行われていることがわかります。天気予報などはその典型で、明日の気温や湿度を回帰分析で正確に導くことが可能です。あるいは株価予測や売上予測など、お金に関する見通しを立てるのにも回帰分析は使われます。人工知能の教師あり学習も、これらの統計予測の延長線上にある技術で、コンピュータが自らこれらの分析を実施してくれることに大きな価値が見出されています。分類分類は、その名の通りデータのカテゴライズを実施するための手法です。教師あり学習はあらかじめ正解データを付与した上でAIに学習を行わせるものですが、実践環境では正解データは付与されていません。そこでコンピュータには膨大な正解ラベルつき学習データを読み込ませ、本番環境ではラベルがなくともデータのカテゴリ分けを行えるようにするのが、分類と呼ばれるアプローチです。上で例示していたリンゴの正誤判定はまさに分類手法を活用した代表的な事例で、これを応用することでさまざまな活躍の場が想定されています。リンゴの見た目の良し悪しはこれまで肉眼で判定され、出荷可能かどうかを見極めていました。しかし学習済みのAIを導入すれば、その判定を自動化できます。教師あり学習で実現する技術これらの技術を応用することで、教師あり学習を採用したAIは他にもさまざまな分野で活躍ができます。その他の例も少し確認しておきましょう。スパムメールの分類分類手法の代表的な活用例として、スパムメールの分類が挙げられます。日々のコミュニケーションに必要なメールと迷惑メールが混同すると、重要な情報を読み逃してしまう心配もあります。しかしAIがスパムメールのテンプレートなどを学習し、自動的に不要なメールを迷惑メールフォルダに分類できるよう進化しています。住宅価格の予測時代やトレンドに応じて敏感に変化する住宅価格も、AIによって予測、あるいは現在の相場に最適な価格への自動調整が行えます。日々の住宅価格の変動をリアルタイムで記録し、将来予測に反映することで、最適な価格調整や、売買に最適なタイミングを通知してくれるようになります。故障率の分析工場機械などの故障率を判定するのにも、教師あり学習が役に立ちます。機器の各部位にセンサーを取り付け、摩耗率や連続稼働率を数値化することによって、AIが自動的に故障率を予測してくれる仕組みです。故障率をリアルタイムで表示できるようになれば、点検やメンテナンスに最適なタイミングを割り出し、コストパフォーマンスと生産効率を高められるでしょう。代表的な教師あり学習のアルゴリズム上で紹介した回帰と分類は、このように多様な活用方法を実現するため、いくつかのアルゴリズムへとさらに細かく枝分かれしています。教師あり学習の代表的なアルゴリズムについて、簡単に3つほどご紹介します。ロジスティック回帰ロジスティック回帰は二つのクラスにデータを分類し、読み込んだデータがどちらに属するのかを調べる手法です。グラフ上に直線を描き、線より上か、線より下かでデータを判別できるため、シンプルに物事を捉えられるのが特徴です。ちなみに名称こそ「ロジスティック回帰」ですが、統計学的にはこちらは「分類」手法として扱われているため、注意が必要です。k近傍法(kNN)k近傍法はコンピュータに読み込ませる特定のデータに注目したとき、その付近にどれくらいのデータが存在するのかを分析するための手法です。注目した特定のデータに対して、距離が近いデータほど近似のデータであり、距離が遠いデータほど関連性の薄いデータであると予測が立てられます。データ間にある距離感を数値化することで、正確な分類を後押ししてくれる手法です。決定木決定木分析は分類と回帰の両方の分析に用いられる分析手法で、樹形図を描くことで予測を導きます。特定のデータに対してYES/NOの質問を繰り返し、データ分類や数値予測を実現します。決定木分析は汎用性が高く、複数の決定木分析を組み合わせてランダムフォレストと呼ばれる別の手法に応用したりなど、分析の際には頻繁に用いることになるでしょう。教師あり学習と教師なし学習の違い機械学習には教師あり学習以外にも、教師なし学習と呼ばれる手法が存在します。教師あり・教師なしではどのような違いがあるのかについて、ご紹介します。教師なし学習とは教師なし学習は、学習データに対して正解となるデータが付与されていない状態でインプットを進めていく手法です。AIは物事を判別する上での重要な基準であった正解のラベルを用いることができないため、自らデータの特徴を読み取れる必要があります。これを特徴量と呼び、特徴量をどれだけ把握できるかによって、AIの品質は大きく左右されます。教師なし学習を実施する上で活躍するのが、ディープラーニングです。ニューラルネットワークと呼ばれる仕組みを搭載することで、正解ラベルがなくともAIが字厚的にデータの特徴を把握し、正解を導けるようになりました。教師なし学習の相違点教師なし学習は教師あり学習のように正解ラベルをあてにできない分、より高度なアルゴリズムと、膨大なデータを学習のために必要とします。そのため運用難易度は教師あり学習に比べて高いと言えるでしょう。ただ、実践レベルに到達するのが難しい分、教師なし学習が行われたAIは高いパフォーマンスを発揮できます。正解ラベルに依存することなくデータの判別や予測ができるようになったことで、人間では不可能なレベルのデータ判別や、高度な意思決定を行えるようになります。歩行ロボットの本体制御や、車の自動運転など、高度なAI開発の現場では教師なし学習が採用されています。教師あり学習と強化学習の違い人工知能の学習方法は、もう一つ強化学習と呼ばれるアプローチが存在します。強化学習の特徴についても理解しておきましょう。強化学習とは強化学習は、特定の目標を達成するためにAIが試行錯誤を繰り返すタイプの学習方法です。自動車を事故なく運転するためのシミュレーションや、人間を超える囲碁AIの開発など、さまざまな目的に用いられています。比較的AI技術としては新しく、実践的に活用されている例は少ないものの、AIのポテンシャルを理解する上では意味のある技術です。強化学習の相違点強化学習と教師あり学習の最大の違いは、やはり正解データの有無にあります。一般的に強化学習を用いて実施されるプロジェクトには、正解の概念がありません。この点については教師なし学習も同様ですが、強化学習の場合、人智を超える高みを目指すことも可能です。わかりやすいのが囲碁や将棋のAIプログラムで、当初は「正しく戦えるAIの開発」だったのが、今では「人間を超える棋士の育成」へとシフトしています。AIの可能性や限界に挑戦できる、夢のあるアプローチとも言えるでしょう。教師あり学習の強みこのように、世の中には複数のAI開発の手法が存在しており、目的とすることもさまざまです。しかしそれでも教師あり学習がAI分野でポピュラーであるのには、どのような理由があるのでしょうか。ここで教師あり学習の強みについて整理しておきます。効率よく学習を進められる教師あり学習の最大のメリットは、効率的な学習が可能である点です。教師あり学習は正解ラベルが付与されたデータセットを用意できれば、すぐにでもAIの開発を進められます。採用するアルゴリズムも平易なものが多く、教師なし学習や強化学習のように膨大な時間を必要としないため、すぐに実践投入が可能です。実用性が高い教師あり学習は、現場への投入スピードが速いのはもちろん、実用性に優れている点も評価されています。上で紹介した通り、教師あり学習における回帰と分類は従来の統計手法を踏襲するものであるため、すでにビジネスの現場でも頻繁に用いられてきました。教師あり学習のAIは、これらの統計的手法をノウハウを持たない人でも用いることができ、データドリブンな組織経営を身近にしてくれます。運用ハードルが低く、導入後の運用イメージもしやすいことから、教師あり学習は頻繁に採用されています。コストパフォーマンスに優れる教師あり学習は、運用コストを他の手法に比べて抑えられるのも特徴です。正解ラベルが付与されたデータセットは各社から提供されているだけでなく、自社でも簡単な入力作業を実施するだけで用意ができます。データ入力作業は時間がかかる一方、最近ではデータセット作成を代行できるサービスがある上、データ作成そのものをAIに任せられるサービスもあります。アルゴリズムの運用についても安価、あるいは無料で利用できるフレームワークも多く、コストを抑えてAI活用を進められます。教師あり学習における2つの懸念事項このように、教師あり学習は実用性の面で優れた効果を発揮しますが、一方であらかじめ注意しておくべきポイントもあります。運用範囲が限定的である一つ目は、教師あり学習は万能ではないという点です。教師あり学習は導入ハードルが低い割には活用可能なケースが多く、万能な技術であると考えられていますが、上でも紹介した通り、全ての課題をこれ一つで解決できるわけではありません。顔認証技術や自動運転など、高度なAI活用については教師なし学習に劣る部分も多く、教師あり学習だけであらゆる業務を賄うことは難しいと考えておきましょう。データの量と品質に注意する必要がある二つ目のポイントは、データの量と品質にこだわらなければいけないという点です。AIは人間とは異なり、インプットするデータが物事を判別する上での全てです。そのため、読み込むデータの品質が低かったり、そもそもの絶対量が少ないと、正しい分析能力を発揮できない可能性があります。AI開発において重要なのは、どんなアルゴリズムを選ぶかよりも、質の高いデータを大量に用意できる仕組みを整える点にあると言えます。教師あり学習の実施プロセス上記のような懸念点を踏まえ、実際に教師あり学習を実施する際、どのような順序で進めていくのかについての流れも確認しておきましょう。データ収集教師あり学習の第一歩は、データ収集から始まります。AIに取り組ませたい課題に合わせたデータを社内、あるいは社外から用意しましょう。近年はAI学習用のデータセットを提供してくれるサービスも普及しており、目的に合わせて最適なデータを入手できます。AI活用に向けて、自社でデータを収集できる仕組みを構築するのも必要になるでしょう。目的変数と説明変数の設定続いて、目的変数と説明変数の設定です。AIを使って予測したいデータを目的変数、予測に用いるデータを説明変数と呼びます。リンゴの正誤判定システムを構築する場合、「リンゴか否か」の結果情報が目的変数、リンゴを見分けるための果物データが説明変数となります。アルゴリズムの採用三つ目のステップが、アルゴリズムの採用です。目的の達成に最適なアルゴリズムを選択し、学習の実践に備えます。アルゴリズムを選ぶ上では、統計学やAI学習に詳しい人物の知見が必要になります。データサイエンティストの起用や、AI関連サービスを提供しているベンダーへ相談してみるのがお勧めです。訓練データの入力と結果の確認アルゴリズムの策定後は、いよいよデータのインプットです。データセットへ目的に応じた正解ラベルを貼り付け、AIにデータのパターンを習得させましょう。十分なデータ入力が完了したら、今度は正解ラベルのない未見のデータを読み込ませ、判定を確認します。識別率の向上に向けて、改善を施していきましょう。おわりに今回は、教師あり学習の仕組みや導入が進む背景、その他の学習方法との違いについてご紹介しました。教師あり学習はAI開発においても比較的取り組みやすいアプローチでありながら、実用性も高い便利な手法です。運用に当たってはデータセットの用意など準備も必要ですが、AI活用を迅速に進めたい組織や、DXの必要性が高まっている現場で注目されています。強みが活かせるタスクは多岐にわたるため、周りを見渡し導入可能性について検討してみると良いでしょう。本記事やFastLabelプラットフォームに興味のある方はお気軽にお問い合わせください▼