なんとなく「入門 機械学習」に目を通すなど

しかも何故か OSX に R なパケジを入れてみたり。

$ brew install r

む、gfortran が無いって R はコンパイルのために Fortran が必要なのね。これはこれは。

サンプルコード

http://sssslide.com/www.slideshare.net/KazufumiOhkawa/12-20049278 によると以下にあるらしい。ありがとうございます。

brew install の最中にこれも取得。最初あたりのソレをおさらいしたら、いきなり Chapter 8 にズルして jump してみたい。

gfortran 導入できた

のでリトライ。つうか手元のソレで云々するのは微妙なので使わせて頂いてるリモホで云々しよ。ええと、p な Ubuntu ですね。r-base パケジなのか。あとは上の github なソレも取得。
準備できたみたいなので云々してみます。

> setwd("~/ML_for_Hackers")
> source("package_installer.R")

ごにょごにょお仕事をなさっているご様子。つうか root でやっちゃマズいかなぁ。

とりあえず

用意できた模様。とりあえず 01-Introduction の ufo-sightings.R の中を見つつ云々してみます。

> setwd("~/ML_for_Hackers/01-Introduction")
> library(ggplot2)
> library(plyr)
> library(scales)

で、以下を REPL に吸わせるのか。

> ufo <- read.delim(file.path("data", "ufo", "ufo_awesome.tsv"),
+                   sep = "\t",
+                   stringsAsFactors = FALSE,
+                   header = FALSE, 
+                   na.strings = "")

read.delim に渡してる引数てきには

  • セパレータは tab stop ("\t")
  • 文字列は factor 型にはしないでね
  • 先頭データはヘッダではありません
  • 空文字列は NA にしてください

という事を指示しているとのこと。summary などという関数があるのか。

> summary(ufo)
      V1                 V2                 V3                 V4           
 Length:61870       Length:61870       Length:61870       Length:61870      
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
      V5                 V6           
 Length:61870       Length:61870      
 Class :character   Class :character  
 Mode  :character   Mode  :character  

なんかデータのクリーニングは Python/Perl/Ruby で、な方が、って話があるのかどうか。UFO のデータについては

  • 日付文字列は長さのみで判断して変換
  • 場所についてはアメリカのみを対象として他はステ

という観点で整理して 1990 年から 2010 年なデータを対象として絞り込んだ上で、_すべての州でのすべての年月のエントリを含む新しいデータフレームを生成_しているのか。

とりあえず

色々微妙ですが、Chapter 8 なコードを確認してみる方向で。