08-PCA で云々
とりあえず本確認しつつ追い掛けてみます。
データ読み込み
library('ggplot2') prices <- read.csv(file.path('data', 'stock_prices.csv'))
入力はできている模様。
> prices[1,] Date Stock Close 1 2011-05-25 DTE 51.12
あるいは以下なのか。
library('lubridate') prices <- transform(prices, Date = ymd(Date))
これで日毎のデータ行列を作ることが可能らしい。
library('reshape') date.stock.matrix <- cast(prices, Date ~ Stock, value = 'Close')
これ、data.stock.matrix を検査する方法って無いのかな。
つうか
PCA って何だ。上の操作で日毎で銘柄毎のデータ行列ができるのは理解できてるはず。微妙なエラーを除去なデータのクリーニングをした後に
行列のすべての数値列間の相関を cor 関数を使って調べられる。そして相関行列を単一の数値ベクトルに変換して相関の密度プロットを作成することにより、(a) 相関の平均と、(b) 低い相関の頻度の感覚をつかむことができる。
入門 機械学習より引用
とありますね。
とりあえず
- cor という関数について確認
- princomp という関数について確認
が必要なのか。
これ、コードが読めてもその根拠が分からない、というあたりが微妙orz