クラスター分析
クラスター分析とは
クラスター(cluster)とは、(ぶどう等の)房、群れ、集団という意味の言葉です。
クラスター分析とは、分析の対象となる個体を、お互いの類似度にしたがって いくつかのグループに分割する手法の総称です。
クラスター分析には多様なアルゴリズムが存在し、データの特性や分析の目的に応じて適切なアルゴリズムを選択する必要があります。実際にクラスター分析を用いるとき、特に問題となるのは主に以下の2点です。
  1. 対象間の類似度(距離)の定義
  2. クラスターの結合方法
対象間の類似度としては、ユークリッド距離で定義されることが一般的です。

クラスターの結合方法とは、新しく形成されたクラスター間の距離をどのように定義するかを定めるものです。クラスターの重心から測る「重心法」、最も近い点から測る「最近法」、最も遠い点から測る「最遠法」などがありますが、比較的よく用いられるのは「ウォード法」です。

ウォード法では、クラスター内での分散が最も小さくなるように、結合を順次決定します。右図の例では、緑と橙の個体をまとめた時に分散が最小となります。そのため、このステップでは緑と橙の個体が結合されます。


アウトプット例
デンドログラム
デンドログラムとは、分析の対象となる個体がまとめられていく様を樹形図の形で表したものです。

ウォード法を用いて分析を行った場合、手順が進むについて「クラスター内の平方和」が増加していくため、明確なデンドログラムが描かれます。


参考