【英語が分からない人向け】Azure Machine Learningのチュートリアル動画解説

Microsoftが提供しているAzure Machine Learning。
ざっくり言うと、データをたくさん食わせると、それによってできた予測モデルをAPI化することができちゃう優れものです。
GUIなので、機械学習に関する知識と英語力があれば超カンタンです。

しかし!!!
機械学習への知識が皆無、TOIEC 210点の僕には一番初めのチュートリアル動画の意味すらほとんど理解できませんでした。

でも、そういう人って他にもいますよね?多分。
webエンジニアとかってこういうの苦手だと思うんですよ、多分…、多分…。

そこで、今回はチュートリアル動画について解説したいと思います。
 

機械学習の6つの手法

 
機械学習にはたくさんの手法がありますが、大きく分けて以下の6つに分類できると言われています。

①回帰
過去のデータから未知の数値を予想します。
教師あり学習の一つです。
商品の販売数など、過去のデータから傾向から読み取り、今年の販売数を予想したりできます。

②クラス分類
与えられたデータのひとつひとつに適切なクラスを割り当てる手法です。
手書き文字の認識や、自然言語処理もクラス分類によって可能です。
教師あり学習の一つ。

③クラスタリング
値の類似性を元に、与えられたデータを複数のグループに分ける手法です。
グループに名前をつけるのは人間であるため、教師なし学習です。
顧客の購買商品から客層を分類することができます。

④情報圧縮
情報を視覚的にしてくれます。
教師なし学習です。

⑤レコメンデーション
ECサイトなどで利用者の興味の持ちそうな商品を推測する手法です。

⑥その他
囲碁やチェスなど、特定の場面に合わせて作られた手法。
 
 
教師あり学習:http://kazoo04.hatenablog.com/entry/agi-ac-13
 
 
 
チュートリアルで使用されていたのは、クラス分類です。
 

チュートリアル動画解説

 
データを整形し、学習モデルを選択してから予測モデルを作成します。
その後、予測モデルに整形したデータを食わせ、予測を実施し、結果を評価。
以上が、基本的なAzure Machine Learningの一連の流れなようです。
 
スクリーンショット 2016-02-01 15.33.26
 
スクリーンショット 2016-02-01 16.26.27
 
Score Modelブロックの下部にある黒丸を右クリック→Visualizeをクリックすると、下記のような画像になります。
今回は閾値が0.5なので、0.5以上のデータに対して「1」が割り当てられ、0.5未満のデータに対して「0」が割り当てられます。
このデータでいうと、「1」は>50Kを表し、「0」は<=50Kを表します。

 
スクリーンショット 2016-02-01 18.59.27
 
これらのデータの正解率は、Evaluate Modelの下部にある黒丸を右クリック→Visualizeをクリックすると見ることができます。
 
スクリーンショット 2016-02-01 19.03.04
 
用語を解説すると、
・True Positive :正しくPositive(1)と判断。予測が正解しているのでOK。
・False Positive :誤ってPositive(1)と判断。予測が不正解なのでNG。
・False Negative :誤ってNegative(0)と判断。予測が不正解なのでNG。
・True Negative :正しくNegative(0)と判断。予測が正解しているのでOK。
 
・Accuracy 正解率のこと。予測結果全体と、答えがどれぐらい一致しているかを判断する指標。
・Precision 適合率のこと。予測を正と判断した中で、答えも正のもの。
・Recall 再現率のこと。答えが正の中で、予測が正とされたもの。
・F-measure F値のこと。予測精度の評価指標。PresicionとRecallの調和平均。
(参考:http://goo.gl/xYaQw1)
 

まとめ

 
いかがでしたでしょうか。
Azure Machine Learningは素晴らしいプラットフォームですが、日本語しか分からない僕からしたら苦痛で…。。
今後も情報発信して参りますので、よろしくお願い致しますm(__)m
 
 
 
 
◯参考

http://yut.hatenablog.com/entry/20120910/1347233734
http://goo.gl/U0lRoO

Tags: