DataSmart　第2章　クラスター分析パート1:k平均法を使用した顧客ベースの区分

顧客の傾向に的したマーケティング

クラスタリングの実施により顧客をいくつかのマーケットセグメントに分割することが有効。
そして、クラスタリングを行うことで、データの類似点と相違点を見つけ、傾向を理解できる。

教師あり学習…対象となるグループのサンプルを伝え、該当するグループを抽出
教師なし学習…セグメント化自身をコンピュータに任せ、結果から人が判断する

→k個のグループにメンバーを適切に配置する方法
→複数のポイントを定め、各クラスタに最もユーグリッド距離が近いものを同じメンバーとする
　クラスタのポイントは各メンバーの移動距離の合計が最も少ない箇所に設定される

→直線距離で一番近いものを選ぶ
距離の計算…ピタゴラスの定理で導く
c²=a²+b²

コサイン類似度(2要素の傾きで類似を判断)により、
クラスタリングを行う方法。

kメディアンクラスタリングの計算に利用される
A→Bの経路の距離。
(直線距離ではない)

今更だけど、if系の参照対象は別の表でも成立する。
数列を比較するため、別表でも同じ並び順をしていれば問題ない。

例)
数量表
顧客A、顧客B、顧客C
10個、20個、30個

購入物名
顧客A、顧客B、顧客C
みかん、りんご、みかん

=AVERAGEIF(購入物名,みかん,数量表)
でみかんの平均を出すことができる

amazonでのこの本の評価が、
ただ直訳したのみで読みにくい、原本を読んだ方がよいという理由で低評価でしたが、
確かに納得しました。
『シンプレックスの手法ではなくエボリューショナリーの解決法』
というのはもう少しうまく訳せないかな…？
いや、翻訳元の内容がわからないからあれだけど…