DataSmart 第2章 クラスター分析パート1:k平均法を使用した顧客ベースの区分
顧客の傾向に的したマーケティング
クラスタリングの実施により顧客をいくつかのマーケットセグメントに分割することが有効。
そして、クラスタリングを行うことで、データの類似点と相違点を見つけ、傾向を理解できる。
教師あり学習と教師なし学習
教師あり学習…対象となるグループのサンプルを伝え、該当するグループを抽出
教師なし学習…セグメント化自身をコンピュータに任せ、結果から人が判断する
k平均法クラスタリング
→k個のグループにメンバーを適切に配置する方法
→複数のポイントを定め、各クラスタに最もユーグリッド距離が近いものを同じメンバーとする
クラスタのポイントは各メンバーの移動距離の合計が最も少ない箇所に設定される
ユーグリッド距離
→直線距離で一番近いものを選ぶ
距離の計算…ピタゴラスの定理で導く
c2=a2+b2
kメディアンクラスタリング
コサイン類似度(2要素の傾きで類似を判断)により、
クラスタリングを行う方法。
マンハッタン距離
kメディアンクラスタリングの計算に利用される
A→Bの経路の距離。
(直線距離ではない)
エクセルの参照対象
今更だけど、if系の参照対象は別の表でも成立する。
数列を比較するため、別表でも同じ並び順をしていれば問題ない。
例)
数量表
顧客A、顧客B、顧客C
10個、20個、30個
購入物名
顧客A、顧客B、顧客C
みかん、りんご、みかん
=AVERAGEIF(購入物名,みかん,数量表)
でみかんの平均を出すことができる
備考:
amazonでのこの本の評価が、
ただ直訳したのみで読みにくい、原本を読んだ方がよいという理由で低評価でしたが、
確かに納得しました。
『シンプレックスの手法ではなくエボリューショナリーの解決法』
というのはもう少しうまく訳せないかな…?
いや、翻訳元の内容がわからないからあれだけど…