アノテーションとは?

このページでは教師あり用の学習用データを作成する作業であるアノテーションについて説明します。

教師あり学習とアノテーション

アノテーションとは教師あり学習で使用するための 学習用データを作成する作業のことです。アノテーションについて詳しく知る前に教師あり学習について説明しましょう。

教師あり学習とはAI・機械学習の一分野で、入力データと出力データのペアを用意して両者の間の関係性を AIモデルに学習させる手法です。学習済みのAIモデルに新しい・未知の入力データを読み込ませることで予測を出力させることができます。 具体的な例として以下のような応用があげられます。

  • ユーザーの特性と広告のクリック率を学習させ、ユーザーに合わせた広告を提供
  • 画像と画像の内容を学習させ、画像の内容判断を自動化
  • 会話の音声データと文字データのペアを学習させ、音声文字変換機能を実現

近年では教師あり学習の一分野である深層学習・DeepLearningが注目を浴びています。 深層学習は主に画像処理・音声処理・自動翻訳などの領域において目覚ましい発展を続けており、実際に商品・サービスへの応用が始まっています。

教師あり学習に必要なもの

では実際に教師あり学習を試すには何が必要なのでしょうか。まずはプログラムです。データの読み込み処理、核となる学習アルゴリズムなどを記述したプログラムを作成する必要があるます。 ではプログラムさえあれば問題ないでしょうか。いいえ、教師あり学習を行うためにはデータ間の関係性を教えるための学習用データが必要不可欠です。 アノテーションとは用意した入力データに対して注釈を加えた出力データを用意する作業です。例えば画像内に映る物体を検出するAIを作成したい場合には、入力に用いる画像データに映る内容を人の手によって注釈していくことで、AIが学習できるデータにします。

アノテーションの種類

アノテーションとは入力データに注釈を付けていくことで、教師あり学習で使用可能な学習用データを用意することだと説明しました。 では具体的にどのような注釈を付ける必要があるのでしょうか。これは取り組みたい教師あり学習のタスクによって異なります。 具体的な例を以下に示します。

  • 画像認識タスク:写っている内容を表すラベル
  • 物体検出タスク:写っている物体のラベルと位置
  • 音声認識タスク:書き起こしたテキストデータ
  • 自動翻訳タスク:入力データの翻訳

anntは物体検出タスク用のアノテーションツールなので、このページでは画像領域に絞って説明をします。

画像認識

画像認識タスクとは、画像に写っている物体が何かを認識するタスクです。 犬が写っている画像では「犬」という出力を 猫が写っている画像を入力すれば「猫」という出力を出すようにモデルを学習させます。 予め「犬」や「猫」などのラベルを定義しておき、画像がそれぞれどのラベルに該当するかアノテーションします。

物体領域検出(Region Prposal)

物体検出タスクとは画像の内部に写る物体が何かだけでなく、物体が写る領域も合わせて予測するタスクです。 多くの場合専用のアノテーションツールを用いて、バウンディングボックスと呼ばれる四角形で物体のラベルと位置をアノテーションしていきます。 他にも多角形(ポリゴン)を用いて物体をより精緻にアノテーションしたデータを用いて学習する方法もあります。 よく知られる物体検出アルゴリズムとしてSingle Shot Detector(SSD)やYou Only Look Once(YOLO)があります。 anntは物体検出タスクに特化したアノテーションツールです。

領域分割 (Segmentation)

領域分割タスクは画像の1画素1画素が何を表しているかを予測するタスクです。 画素毎に領域を区切っていくので複雑な物体の形に沿ってきれいに物体を区切ることができます。 領域分割のアノテーションでは対象となる物体の輪郭をなぞる作業が必要となります。 よく知られる物体領域検出のアルゴリズムとしてU-Netなどがあります。

おわりに

アノテーションは非常に労力がかかる作業です。 より効率よく作業を行うために、ぜひanntをお試しください。

参考文献


AI向け学習データ作成(画像データのアノテーション)- Cyber Tech
The Most Prominent Applications of Semantic Segmentation: What Are They?