transform とか ymd とか
ええと、transform という関数は_データフレーム x に新たな列 y を追加する_とありますね。
> prices <- transform(prices, Date = ymd(Date))
だと prices に Date という列を追加したデータフレームを戻すのか。つーことは ymd が微妙なのかな。
もうちょい
github からソース取得して云々してみました。
$ git clone https://github.com/hadley/lubridate $ cd lubridate $ R > setwd('~/tmp/lubridate') > install.packages('.', repos=NULL, type="source") Installing package(s) into '/home/hoge/R/x86_64-pc-linux-gnu-library/2.15' * installing *source* package `lubridate' ... ** R ** data ** moving datasets to lazyload DB ** inst ** preparing package for lazy loading ** help *** installing help indices ** building package indices ** installing vignettes ** testing if installed package can be loaded * DONE (lubridate)
で、リトライしてみましたが駄目でしたorz
抵抗は止めて諸々確認
まず subset から。データの選択、なのかどうか。
> prices <- subset(prices, Date != ymd('2002-02-01')) > prices <- subest(prices, Stock != 'DDR')
上記だと 2002-02-01 なデータと Stock が DDR なものをステているのか。あとデータをページャで確認、みたいなことってできんのかな。
あるいは cor ですが昨晩の例だと以下か。
> cor.matrix <- cor(date.stock.matrix[,2:ncol(date.stock.matrix)])
相関係数を求める、とありますね。_二つの変数がそれらの関係性を直線で記述できるときに相関を持つと呼ぶ(入門機械学習より引用)_とのこと。
このケイスだと銘柄な行列になってるので銘柄毎の日毎のデータの相関係数を取得してる、という理解で良いのかどうか。
つうか ncol てのもアレ。確か以下な形式だったので
> date.stock.matrix[1,] Date ADC AFL ARKR AZPN CLFD DDR DTE ENDP FLWS FR GMXR GPC 1 2002-01-02 17.7 23.78 8.15 17.1 3.19 18.8 42.37 11.54 15.77 31.16 4.5 36.09 HE ISSC ISSI KSS MTSC NWN ODFL PARL RELV SIGM STT TRIB UTR 1 40.41 7.82 12.78 70.23 10.03 26.2 13.4 1.92 1.3 1.75 52.11 1.5 39.34
上で言えば ADC な銘柄の列から末端まで、が
date.stock.matrix[,2:ncol(date.stock.matrix)]
という記述って理解で良いのかどうか。
R の配列アクセス
むむ、やはり
> prices[1,]
というのは 1 行目全部、って事になるのか。つうことは上のソレは全ての行の 2 列目から最後まで、という意味になるのかな。成程。
つうか
完全に読む順番がダウトなカンジ。でも PCA というソレは確かに面白いのでもう少し色々確認な方向。