「Rによる統計解析」を写経してみる(1)
統計をするときに、一番のお勧めの本は、以下のEZRの解説本。
一歩踏み込んで、グラフなどを自由自在にRで記載したり、R markdownを用いてレポートを楽に(はたして、本当に楽なんだろうか、、、)作成したい場合、「R」そのものを勉強する必要がある。
「R」を勉強するために、何冊か本を購入したが、以下の本が一番よかった。
一見、とっつきにくそうにも見えるが、必要十分がことが、しっかり記載されており、最初から順番にやっていくと、本当に分かりやすい。(まだ途中ですが、、、)
なので、R Studio上で、R Notebookを作成して、写経してみる。
(環境)
Windows 8.1
R Studio 1.1.383
(1)第1章
(2)第2章
チャンク内に、コメントでも、日本語を記載すると、なんか変な警告メッセージが出てくる。
Warning message: In strsplit(code, "\n", fixed = TRUE) : input string 1 is invalid in this locale
ググッたが、さっぱり分からない。
まあ、とりあえず、相関係数の計算などはちゃんとできている。
R, R Studioは、2017年の現時点でも、日本語入力との相性は非常に悪いと感じる。
(3)データフレーム
(4)オーム社の書籍のホームページ
http://www.ohmsha.co.jp/data/link/978-4-274-06757-0/
から、ZIPファイルをダウンロードして、中の、idol.dat を移動。
今回は、あえて、エクセルでこのデータを開き、xlsxファイルで保存し、
さらに、csvファイルに変換後に、Rで読み込む。
これを、エクセルで開く
名前をつけて保存 で、idol.xlsx という名前で保存。
名前をつけて保存 で、CSV(コンマ区切り)(*.csv) を選択して、保存。
(文字コードは、SJIS (cp932) で保存される。)
(紛らわしいが、CSV UTF-8(コンマ区切り)(*.csv) では無い。
MacではUTF-8らしい。Windowsでは、SJIS(cp932)である。)
R Studioで以下のコードをチャンク内に入力して、実行。
df <- read.csv("idol.csv") df
データフレーム名[, 変数のある列番号]という記法は、大規模かつ繰り返しを含む自動的な分析の場合に便利。
“`{r}
# for (i in ベクトル) {
# df[,i]を参照する処理
# }
“`
データのチェック table()関数
連続変数の場合は、round関数で、四捨五入する必要がある。
ディスカッション
コメント一覧
まだ、コメントがありません