サイトアイコン tracelog@UCLA

Entrepreneurial Regression

2ヶ月ぶりの更新です。
書きたいことは色々あったのですが春学期は死ぬ程忙しかったので
中々書けませんでした。笑
とりあえず一週間前に無事MBAを卒業しました。
最終学期の授業の成績はまだ全部出てないので
厳密にはまだ卒業出来てるのかわかってませんが、
きっと大丈夫…なはずです 笑

卒業/MBA総括関連の話はまた次回以降書きますが、
卒業して時間がたっぷりできたので、
まずはこれまで溜まっていた書きたいことを書いていこうと思います。

今学期は(facebookでそういう話ばかりしてたので 笑)
MBAのキャンパスで友達に会うとHealth Analyticsの話をよく聞かれました。
この授業が、今学期がMBA生活の中で一番忙しかった主原因なのですが、笑
その分学びも多かったので、たまにはMBA行ってる人らしく、
その学びのいくつかを備忘の意味も含めて書いてみようと思います

Regression in Agile Setting

はい出ましたアジャイル 笑
まぁタイトルのチャラさは置いておいて、
今回のメイントピックは、regression(回帰分析)です。

まずはregressionを知らない人向けに超簡単にregressionの説明をします。
(Wikipediaのリンクを貼って終わりにしようと思ったのですが、
Wikipediaの説明、専門用語が多過ぎて小難しかったのでやめました 笑)

Regression – Basics

regressionは一言で言うと
「2つ以上の要素の関係性を方程式で表す」方法のことです。
例えば東京の気温と湿度のデータ(何度の時に湿度何%だったか)をいっぱい集めて
そのたくさんのデータを元に東京の気温と湿度の関係を

湿度(%) = a + b × 気温(℃)

という方程式で表しますというのがregressionです。
ただ、東京に住んだ方なら想像がつきやすいかもしれませんが
同じ気温でも、例えば梅雨と秋では湿度が全然違うので
上記方程式で一意に気温から湿度を求めることはほぼ不可能です。
なので、イメージとしては下記図のように
複数のデータの点たちから”一番無難な”(誤差の合計が最も少ない)線を引いて、
その線の方程式を求めるという感じです。

上記図から明らかかもしれませんが、regressionは発想として
「方程式にあてはめれば全ての点がピンポイントで当たる」ではなく
「方程式を使ってだいたい全体的に近い予測をする」ものです。
なので、この引いた線が全体的に
どのくらい実際の点に近いかを測るための値があって、
その値を元にregressionの全体的な精度を判断します。
その値の中で最も有名なのがR^2(決定係数)です。
R^2は普通のregressionでは0〜1の間の値をとり、
1に近い程regressionの精度が高いと判断します。
また、引く線も必ずしも直線とは限らず、
下記図のように気温の二乗や三乗、ルートやログ等を使うことで
曲線にすることも可能です。

…と、基本はこんな感じです。

UCLAのMBAでもregressionは
Statistics, Data Analytics, Marketing Analytics, Customer Analytics
等の授業で習ったのですが、
全ての授業で、数万件単位のデータセットでregressionを行って
教科書通りで誰が見ても正しい、”綺麗な分析”をするという
“大企業で特に真価を発揮する”使い方を扱っていました。

What I mean by “agile”

上記使い方ができるのは、大量データを集められることが大前提です。
多くの場合、それは自前なり他人の(API等含め)なり、
ある程度のユーザーベースのある製品が既に存在することを意味します。
また多くの場合、使用するデータに相関があることは既にわかっていて
いかに多次元のモデルを使って予測の精度をあげるかが焦点になります。

ところがHealth Analyticsでは、プロジェクトの内容が
「まだ世の中に存在しないヘルスケア製品を作る」だったので、
データを大量に集められる製品は存在せず
データに相関があることもわかってなかったので
そもそも大前提の仮説の方向性が信じるに足るかどうかを立証することが
焦点でした。
なのでMBAで習ったregressionと同じモデルを使ってはいるのですが、
結構モデルの改善の仕方や解釈の仕方は違いました。

…と、ここまでが非常に長い前置きです。笑
基本的にHealth Analyticsでは教授は何も教えないので
某六本木/虎ノ門にあるワークスなんとかとか言う会社と同じで
全部試行錯誤して自分で勝手に学ぶのですが、笑
そんな試行錯誤してる中、なんとなく上記違いに気付いて
それに応じて学んだことがいくつかあるので、つらつらと書いてみます。

Takeaways

ということで、Health Analyticsのテクニカルな学びでした。
少ないデータでいかにコンセプトを証明するかという観点で
モデルを選んだり、input featureを絞ったりするのは新しい経験でしたが、
たぶん今後、同じように新しい製品を作る際に頻繁に行うことになる
気がするので、大事な学びだったと思います。
Health Analyticsは今まで受けてきた授業の中で
一番InnovativeでEntrepreneurialだったので
テクニカル以外の部分でもうちょっと深い学びもある気がしますが、
それはまた考えを整理してから別途ログにしてみようと思います。

モバイルバージョンを終了