歩苦 求路の備忘録 (旧:奇人な鬼神)

お酒、特にスピリタスについて備忘のためにつらつらと。

DataSmart 第2章 クラスター分析パート1:k平均法を使用した顧客ベースの区分

顧客の傾向に的したマーケティング

クラスタリングの実施により顧客をいくつかのマーケットセグメントに分割することが有効。
そして、クラスタリングを行うことで、データの類似点と相違点を見つけ、傾向を理解できる。

教師あり学習教師なし学習

教師あり学習…対象となるグループのサンプルを伝え、該当するグループを抽出
教師なし学習…セグメント化自身をコンピュータに任せ、結果から人が判断する

k平均法クラスタリング

→k個のグループにメンバーを適切に配置する方法
→複数のポイントを定め、各クラスタに最もユーグリッド距離が近いものを同じメンバーとする
 クラスタのポイントは各メンバーの移動距離の合計が最も少ない箇所に設定される

ユーグリッド距離

→直線距離で一番近いものを選ぶ
距離の計算…ピタゴラスの定理で導く
c2=a2+b2

kメディアンクラスタリング

コサイン類似度(2要素の傾きで類似を判断)により、
クラスタリングを行う方法。

マンハッタン距離

kメディアンクラスタリングの計算に利用される
A→Bの経路の距離。
(直線距離ではない)

エクセルの参照対象

今更だけど、if系の参照対象は別の表でも成立する。
数列を比較するため、別表でも同じ並び順をしていれば問題ない。

例)
数量表
顧客A、顧客B、顧客C
10個、20個、30個

購入物名
顧客A、顧客B、顧客C
みかん、りんご、みかん

=AVERAGEIF(購入物名,みかん,数量表)
でみかんの平均を出すことができる

備考:

amazonでのこの本の評価が、
ただ直訳したのみで読みにくい、原本を読んだ方がよいという理由で低評価でしたが、
確かに納得しました。
シンプレックスの手法ではなくエボリューショナリーの解決法』
というのはもう少しうまく訳せないかな…?
いや、翻訳元の内容がわからないからあれだけど…