スポンサーリンク

「Rによる統計解析」を写経してみる(1)

統計をするときに、一番のお勧めの本は、以下のEZRの解説本。

一歩踏み込んで、グラフなどを自由自在にRで記載したり、R markdownを用いてレポートを楽に(はたして、本当に楽なんだろうか、、、)作成したい場合、「R」そのものを勉強する必要がある。

「R」を勉強するために、何冊か本を購入したが、以下の本が一番よかった。

一見、とっつきにくそうにも見えるが、必要十分がことが、しっかり記載されており、最初から順番にやっていくと、本当に分かりやすい。(まだ途中ですが、、、)

なので、R Studio上で、R Notebookを作成して、写経してみる。

(環境)
Windows 8.1
R Studio 1.1.383

(1)第1章

(2)第2章

チャンク内に、コメントでも、日本語を記載すると、なんか変な警告メッセージが出てくる。

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

ググッたが、さっぱり分からない。

まあ、とりあえず、相関係数の計算などはちゃんとできている。

R, R Studioは、2017年の現時点でも、日本語入力との相性は非常に悪いと感じる。

(3)データフレーム

(4)オーム社の書籍のホームページ

http://www.ohmsha.co.jp/data/link/978-4-274-06757-0/

から、ZIPファイルをダウンロードして、中の、idol.dat を移動。

今回は、あえて、エクセルでこのデータを開き、xlsxファイルで保存し、

さらに、csvファイルに変換後に、Rで読み込む。

これを、エクセルで開く

名前をつけて保存 で、idol.xlsx という名前で保存。

名前をつけて保存 で、CSV(コンマ区切り)(*.csv) を選択して、保存。
(文字コードは、SJIS (cp932) で保存される。)
(紛らわしいが、CSV UTF-8(コンマ区切り)(*.csv) では無い。
MacではUTF-8らしい。Windowsでは、SJIS(cp932)である。)

R Studioで以下のコードをチャンク内に入力して、実行。

df <- read.csv("idol.csv")
df

データフレーム名[, 変数のある列番号]という記法は、大規模かつ繰り返しを含む自動的な分析の場合に便利。

“`{r}
#  for (i in ベクトル) {
#      df[,i]を参照する処理
#  }
“`

データのチェック table()関数

連続変数の場合は、round関数で、四捨五入する必要がある。

R

Posted by twosquirrel