機械学習の運用を始める場合、必ずと言っていいほど実行することになるのが教師あり学習、そして教師なし学習です。AI開発の基礎を成すこれらのアプローチは、名前こそ似ているものの、それぞれで全く異なる性質と用途を有しています。今回は、教師あり学習と教師なし学習のそれぞれの特性や、成果につながる活用方法のヒントについて、ご紹介します。教師あり学習とは 教師あり学習は、今日のAI開発において最もスタンダードな学習方法です。特徴的なのは、教師データと呼ばれる機械学習に特化したデータセットを用意し、学習を行う点です。運用が比較的容易であることから、初心者のAI開発の現場でも盛んに採用されています。教師あり学習の仕組み 教師あり学習の名前の由来は、教師データを使った学習を行うことにあります。教師データとは、正誤判定のラベルがメタデータとして付与されている、機械学習をサポートするためのデータです。教師データを読み込むことで、AIはメタデータを読み込んでそのデータの良し悪しや正誤判定を判断するので、開発者が意図するようにAIを学習させられるのが特徴です。判別が難しい問題でも、正解データをきちんと付与してやることで、AIは学習を進めることができます。最も汎用性の高い学習方法として活躍 教師あり学習は、教師データさえ用意できれば非常に運用がしやすく、学習スピードや精度にも優れているということで、初心者はもちろん、プロフェッショナルの現場でも盛んに採用されています。豊富な活用シーンがあり、実践的なプログラムとしてすぐに現場へ送り込むことができるため、ビジネスの用途においても活躍する頼れる手法です。教師あり学習の主な活用シーン ここで、教師あり学習の典型的な活用例についても見ておきましょう。天気予測 天気予測は、教師あり学習が活躍しやすいタスクの一種です。天気予報は過去の気象データから、未来の予報を発信する仕組みを採用していますが、過去のデータをAIに読み込ませれば、自動で正確な予報を提供できるシステムを開発できます。予報士の勘に頼る必要もなく、カメラや湿度・温度センサーなどをセットすることで、その地域の正確な予測をリアルタイムで提示してくれるようになります。日本全国にシステムを配置すれば、いつでもどこでも極めて正確な転記予測が実現します。レコメンデーション ECサイトなどでよく見かけるレコメンデーション機能も、教師あり学習が役に立ちます。レコメンド機能はユーザーの検索履歴やWeb上での行動履歴を元に、ニーズにあった情報を提供する機能で、ユーザーがテキストで指定をしなくとも、自動的に好みの情報を提案してくれます。検索履歴から、どうやら白いシャツを探しているらしい人にはそれにあった商品の提案を、秋の果物を調べている人にはおすすめのナシやブドウの商品情報を提案します。ユーザーが最短距離で欲しい商品にたどり着くアシストをすることで、販売促進を実現します。教師なし学習とは 教師あり学習の一方で、近年注目されているのが教師なし学習です。教師なし学習とは、その名の通り教師を必要としない、つまり教師データを使わずに機械学習を実現する方法です。どちらかというと人間が本来もつ経験に基づく学習アプローチに近い方法で、何度もデータを読み込むことで、自発的にデータが持つ特徴量を発見し、独自の学習結果を獲得します。教師なし学習の仕組み 教師なし学習の最大の特徴は、特徴量を自ら発見できるという点です。教師あり学習では教師データに付与された正解データを参考にすることで、意思決定の判断基準を構築してきました。一方で教師なし学習は、人間が提供する正誤判定に判断を託すことなく、自ら正解へ近づこうとします。このような積極性を支えているのが、ニューラルネットワークと呼ばれる仕組みです。ニューラルネットワークは人間の神経細胞から着想を得たネットワークシステムで、複数の層を使ってデータを読み込むことで、データから独自に特徴量を抽出します。特徴量はAIが物事を判断するのに欠かせない情報で、教師あり学習ではメタデータに含まれています。教師なし学習の優れた点は、特徴量を一般データから吸い出せるところにあるのです。最先端のAI開発には欠かせないアプローチ 教師なし学習は、ディープラーニング(深層学習)と呼ばれる複雑な機械学習手法を実現する上では欠かせないアプローチです。ディープラーニングを実施することで、教師あり学習では実現できなかった複雑なAIの開発も進められます。現在、最先端で開発されているAIの多くは、いずれもディープラーニングを用いたサービスやテクノロジーであることがほとんどです。そのため、高度なAI開発を進める上では無視できない技術と言えるでしょう。教師なし学習の主な活用シーン 教師なし学習は、今やさまざまな分野で高度なAIを開発するのに活躍しています。ここで、教師なし学習の主な活用シーンを確認しておきましょう。自動運転技術 自動運転技術は、教師なし学習やディープラーニング活用の代表的な事例です。リアルタイムでの映像解析や迅速な意思決定、そして高精度のドライビングを同時にこなすことは、並大抵のシステムで実現できる技術ではありません。ディープラーニングによって高度なドライビングテクニックと意思決定能力を習得させることで、現在では人間と変わらない運転ができるようになりつつあります。自然言語翻訳 人間がコミュニケーションの際に使用する自然言語の解析は、コンピュータが苦手とする分野の一つでした。しかし教師なし学習によって、膨大な数の言語データから効率的な学習ができるようになったことで、自然言語の解析、及び翻訳の精度は大幅に向上しています。単語や文章の意味を理解するだけでなく、文節や文脈、そして会話のシチュエーションなども読み取れるようになったため、もはや人間と変わらないレベルで自然な文章を生成することも可能です。強化学習とは 教師あり学習と教師なし学習の他にも、機械学習にはいくつかの手法があります。中でも強化学習は、教師あり・なし学習と変わらない人気を誇る、重要性の高い技術です。強化学習は、特定の目的に則ってコンピュータが自ら学習を繰り返すことのできるアプローチです。例えば「インベーダーゲームで100万点とれ」というタスクを命令した場合、コンピュータに基本的な操作方法を教えることで、あとは繰り返しゲームをプレイしてスコアの獲得に向けて動き始めます。最初こそまるでクリアする気のない挙動ばかりを繰り返しますが、何千回、何万回とゲームを繰り返すことで、徐々に人間らしいプレイングへと近づきます。最終的には人間の能力を超え、高度なゲームプレイングマシンとして成長してくれます。強化学習は正誤判定などを行う機能がない一方で、経験を積み重ねることで高度なスキルを身につけられるようになります。どんなアクションを起こした時に、最も目標達成に近づくのかを試行錯誤の中から一人でに見出せるので、人間が手を加える必要はありません。半教師あり学習とは 半教師あり学習は、少量の教師データを活用し、通常のデータも正しく読み込ませられるよう促しながら学習を行う手法です。教師あり学習の場合、読み込むデータは全て教師データである必要がある一方、メタデータの付与が間に合わず、十分なデータが確保できない時があります。そんな時に役立つのが半教師あり学習です。少数の教師データから正誤判定の傾向をAIに理解させ、教師なしデータでも正しく判定を行い、実用性のあるプログラムへと育てられます。専門性が高く、データセットの確保が難しい業界や、予算の都合で教師データを揃えられない場合に活躍する手法です。機械学習に活躍する代表的な統計手法 機械学習においては、主に以下の3つの統計手法を発展させてAI開発に適用させています。どんな仕組みでAIを構築しているのか、基本事項を確認しておきましょう。回帰 回帰は、これまで読み込んだデータからトレンドを把握して、未来を予測するための手法です。主に教師あり学習において好んで採用されている統計手法で、データに基づく正確な予測を提案する時に活躍します。分類 分類は、未知のデータに適切なカテゴリを与えるための手法です。例えば画像認識技術を使って花の名前を特定したり、機械の故障の有無や、顔認識の正誤判定を判断したりする上で活躍します。クラスタリング クラスタリングは、複数のデータの傾向を学習して、グループ化することができる手法です。分類と近しい効果をもたらしますが、分類との大きな違いはグループ化にとどまる点です。分類の場合、事前に定義づけられたタグに当てはまるかどうかを判断しますが、クラスタリングは事前の定義がなく、読み込んだデータの中からグループ化できそうかどうかを判断しながら実行されます。そのため、未知の回答を導きたい場合にはクラスタリングが有効と言えます。機械学習の運用における注意点 機械学習の運用は、多くの魅力的なメリットを持つ反面、懸念しなければならない点もあります。ここで、運用における注意点を確認しておきましょう。100%の精度を目指すことはいずれの方法でも困難である点 一つ目は、AIの精度を過信してはいけないという点です。人間の場合もそうですが、意思決定や物事の判断が100%正しいということは有り得ず、どんなに優れたAIもわずかに想定外の余地を残しています。そして、高い精度のAIを確実に生み出すためには、途方もない量のデータのインプットが求められるため、どれだけ精度を追求できるかというのにも制限があります。AI開発を進める場合、100%の精度を目指すのではなく、実用性が見込める精度を得られる程度を目指すのが重要です。実用化までには時間を必要とする点 二つ目の注意点は、AIを一朝一夕で開発することはできないという点です。近年は有益なフレームワークやAI開発のノウハウが広く共有されているため、以前に比べると開発のハードルはグンと低くなりました。しかしそれでもまだまだAI開発を瞬時に行える技術力は普及しておらず、ある程度の時間をかけて開発に勤しむのが一般的です。特にビジネスレベルで実用性のある開発を進めるとなると、数年単位で期間を設ける必要も出てきます。リソースと期間には余裕を持って、AI開発に取り組みましょう。機械学習の精度を高めるためのポイント 最後に、機械学習の精度向上を実現するために覚えておきたいポイントについて、二点ご紹介します。学習モデルを見直す 一つ目は、学習モデルの見直しです。丁寧な学習を進めてもなかなか期待しているような成果が得られない場合、学習モデルが課題に適していない場合があります。食べ物を茹でる時には鍋を使い、焼くときにはフライパンを使うように、学習モデルにも成果が出やすい得意不得意があります。うまく精度が上がらない時には、別の学習モデルを使ってAIを育ててみるのも良いでしょう。優れたデータを大量に確保する 機械学習を効率よく行う上で最も重要なのは、良質なデータの確保です。AI開発の多くの時間はデータ収集に充てられていると言われるように、データの確保には十分なリソースを使って対応する必要があります。データの母数が少ない、あるいは目的にそぐわない質の低いデータが混じっていると、精度が低下したりなどの悪影響を受けてしまいます。特に教師あり学習を実行する場合、教師データの大量確保は非常に重要です。メタタグを一つずつ付与していき、目的に沿ったAIを迅速に開発できるよ促しましょう。おわりに 今回は、教師あり学習と教師なし学習の違いや、学習方法の違いがどんな影響をもたらしているのかについて解説しました。機械学習を成立させる上では、開発者が正しい学習モデルを選び、データを十分に確保して学習を行う必要があります。それぞれの特性を理解し、開発を実現しましょう。そして質の高い教師データの確保も、学習結果へ大いに影響を与えます。FastLabelでは、専門のアノテーションチームがクライアントニーズに合わせて高品質な教師データを作成するサービスを提供しています。自社では捌き切れない大量のデータも、専門チームに任せることで、品質の低下を心配することなく教師データへと生まれ変われます。専用のプラットフォームを活用することで、アノテーションの進捗確認やフィードバックも迅速に行えるため、マネジメントコストも大幅に削減可能です。教師データの確保にお悩みの際には、お気軽にご相談ください。