Rstudioでデータセットの方法を徹底解説![実際に役に立つデータ分析の仕方]

こんにちは、データ分析を大学で学んでいるけーぷろです!

今すぐ始められるデータ分析講座の第二回目となります!data

一回目を見ていない人はこちらからご覧ください!

今回すること

今日することはデータ分析するのに欠かせないデータセットの仕方を紹介します!

データセットは分析したいデータを分析ツールに入れることです

これから使っていくツールはRstudioです!

多くのデータ分析の会社が採用しているツールなので、データ分析したい人は慣れておくのがいいでしょう!

Rstudioをまだインストールしていない人はこちらからインストール方法を紹介しています!

RとRstudioがあるのですが、Rstudioをインストールしてください!

Rstudioの基本構造

それでは簡単にRstudioの構造を説明します!

Rstudioを開くとこんな画面が出ると思います。画面多すぎてビビりますよね笑

大きく分けて4つに区切られています!

  1. ・・主にここでプログラミングを書いて分析していきます
  2. ・・読み込んだデータ一覧です
  3. ・・コンソールです(特に使わない)
  4. ・・ホームのファイル一覧です

スクリプトを作成しよう!

スクリプトとは台本みたいな感じで、プログラミングコードを書いていくノートです!

それでは作成していきましょう!

左上の+ボタンをクリック

左上の+ボタンをクリックするとこのような写真になると思います

その中から「R Markdown…」をクリックしましょう!

タイトル名を記入

タイトル名は特になんでもいいです!

今回は「クラスのテスト」にしました

これでスクリプトの完成です!

スクリプトを保存する

作成したスクリプトはすぐに保存する癖をつけましょう!

理由はスクリプトと用いるデータが同じ場所でないとデータが読み込めないためです

保存ボタンは青い丸の保存ボタンマークを押すと保存できます!

保存先はデスクトップ又は新規ファイルの中に保存しましょう

データをエクセルに用意する

今回使用するデータは「一郎兄弟の5教科のテストの点数」を用います!

実際にデータを収集していきたいのですが、収集の仕方もいろいろあるので後にブログでまとめます!

以下からエクセルデータを保存できます。保存先はデスクトップ又はファイルを作成して保存してください

エクセルデータをcsvに変換する

残念ながら、エクセルデータではデータ分析はできません!

じゃどうするんだよってなりますよね笑

ここからエクセルデータをcsvデータに変換する作業をしていきます

これからデータを分析する場合、エクセルのデータがほとんどだと思うのですがcsvデータに変換しないと分析できないので覚えていきましょう!

名前をつけて保存でcsv形式にする

ファイル形式をcsvに選択してください!

保存先はデスクトップかファイルを作成した場所に保存してください

CSVデータを文字化けから解除する

今のcsvデータをRに入れると文字化けが起こる可能性があります

なので、csvデータのコードをUTF-8にする作業を紹介します!

テキストエディタを開く

csvデータを右クリックして「このアプリケーションで開く」を押しましょう

そしたら自分が所持してるアプリから開ける状態になると思います。

選択するアプリはWindowsなら「メモ帳」、Macなら「CotEditor」がおすすめです

「CotEditor」のインストール方法・・https://techacademy.jp/magazine/4720

UTFー8に変更して保存

「CotEditor」で開くとこのような画面になると思います

エンコーディングっていうのが見えていると思うのでそこをクリック

クリックすると多くのエンコーディングを設定する語が出てくるので、一番上にある「UTF-8」を選択!

選択したら「command+S」で保存!

これで文字化けはしないはずです!

次に用意したデータを実際にRにデータセットしていきましょう

データセットの仕方

まず、用意したスクリプを開くといらない文字が存在しています

邪魔なので「##R Markdown」からの文字を全て消してください!

いらない文字を消せたら、次はプログラミングを実行するためのチャンクを作成します!

チャンクがあるところにプログラミングを書くことで実行することができます

コードを実行するためのチャンクを作成

「Insert」というボタンを押すと以下のような言語を選ぶことができます

今回は「R言語」なのでRをクリック

するとRのチャンクが作成されたはずです!

チャンクのデータを読み込むコードを入れよう

それでは実際にデータセットするためのコードを入力しましょう!

一行ずつ説明を行います!

実行ボタンはチャンクの右にある緑の▶︎ボタンをクリックすると実行できます!

test<-read.csv(“test.csv”,header=TRUE)・・R言語の「←(矢印)」は「=」と同じで代入を意味しています。read.csvでcsvデータを読み込むことができます。header=TRUEはおまじないなので無視してください

代入したtestだけを入力して実行すると下の方に「NA」が多くありますね。邪魔なので消してあげます。

test<-test[-c(8:10),]・・テストデータの8行目から10行目を削除するコマンドです。test[行,列]になっているので今回消したいのは行です。-c(8:10)をすることで8行目から10行目を削除することができます。

実行して「test」と入力すると、、

いいですね!いらない部分を消すことができました!

次に、rownames(test)<-NULLの説明を行います。

実はこのコードは非常に重要です。

rownamesとは

今の状態のデータはこんな感じになっていると思います

チャンクの中にtestと入力し右にある緑矢印ボタンで実行しましょう

一番左に1,2,3,4..というID属性が存在しているのがわかります。

今回は次郎、三郎…という名前を用意しているのでID属性はいらないです。

なので、ID属性を削除する作業が必要です!

削除の仕方が「rownames(データ変数)<-NULL」になります

実行すると、、、

ID属性が消えているのが分かります!!

これでデータセットは完成です!

最後に

データをセットするだけなのに必要な手順がいくつかありましたよね。

データセットの手順

csvデータに変換→文字化けを防ぐ→データ加工

この作業はこれからデータ分析する上で絶対しないといけない作業になるので覚えていきましょう!

次は実際にこのデータを用いて分析をしていきます!

楽しみにしていてください!以上で終わります!!

アーカイブ