Pythonでアクセス数の集計やデータ分析をするために、
「pandas」というのが必要らしい…。
「pandasのインストール方法」や
「pandasの使い方」が知りたい…。
承知しました。
「pandasのインストール方法」
「pandasがインストールできない場合の対処法」
「pandasの基本的な使い方」を
できるだけわかりやすく解説いたします。
【著者情報】
Python歴3年。
入社2年目の春に先輩が突然トンズラし、業務を半分肩代わりするハメに…。
今までの1.5倍の仕事をこなせるはずもなく、苦しむ毎日。
業務効率化を模索中にPythonと出合う。
業務とPythonの相性が良く、2倍以上の効率化を実現。現在も効率化を進行中。
※わかりやすさを重視しております。厳密には解釈が異なる場合がありますことをご了承ください。
pandasのインストール方法
インストール手順は以下の通りです。
- Windowsの画面左下にあるWindowsマーク(田)をクリック
- 出てきた画面上の検索窓に「コマンドプロンプト」と入力
- 出てきた「コマンドプロンプト」をクリックすると、黒い画面が起動
- (ちょっと怪しげですが、大丈夫です)
- カーソルが点滅し始めたら、「pip install pandas」と入力し、「Enterキー」を押す
- (何やらごちゃごちゃ出てきます)
- 最後の方に「Successfully installed~」と表示されていればインストールは完了
「7」までいけば「pandas」のインストールが完了です。お疲れ様でした。
これで、データ分析や集計は思いのまま!夢の自動化が待っています!
著者と同じ「Anaconda」の「Jupyter Lab」を使用されている方は、
コードを入力する画面で「!pip install pandas」と入力し実行してください。
pandasのインストールができない場合
pandasのインストールができない場合は、pipのバージョンが古い可能性があります。
「ERROR: To modify pip, please run the following command:」
というエラーが出た場合は、その下にあるコマンドをコマンドプロンプトに入力して、
「Enterキー」を押してみてください。
おそらく下記のようなコマンドが表示されていると思います。
C:\(割愛:Pythonが入っているフォルダのアドレス)\python.exe -m pip install –upgrade pip
「Successfully installed~」と表示されたら、再度「pandas」のインストールを行ってみてください。
pandasとは
前項で「pandas」のインストール方法を解説いたしました。
pandasを使い始める前に、pandasとは何なのか、何ができるのかを簡単に解説いたします。
「pandas」とは、仮想の表計算データベースを保持できる「Pythonのライブラリ」です。
なにやらよくわからない言葉がいろいろ出てきましたね…。
まず「ライブラリ」とは何でしょうか?
「ライブラリ」は本棚のようなもので、「pandas」の他にも「datetime」や「openpyxl」など、
いろいろな本が並んでいるとイメージしてください。
前項で解説した「pandasのインストール」は、
【書店で「pandas」の本を購入して、家の本棚(ライブラリ)に入れた】
といえばわかりやすいでしょうか。いつでも見ることができる状態にしたということです。
次に「仮想の表計算データベース」についてですが、
エクセルの表をネット上に作るようなものだと思ってください。
(エクセル版のアバターみたいなものでしょうか…)
では、この「pandas」を使って何ができるのかを次項で解説いたします。
pandasでできること
代表的なのは下記のとおりです。
- データベースの作成
- データベースの読み込み
- データの集計・分析
- データの抽出・削除
- データベースの書き出し
今回は長くなるため解説しませんが、当ブログの他の記事で解説しております。
できるだけわかりやすく解説しておりますので、ぜひご覧ください。
【openpyxl】とどう違うの?
openpyxlは実際のエクセルファイルを編集できるライブラリです。
いっぽうpandasは、実際のエクセルファイルから取り込んだデータを編集できます。
「openpyxl」が現実、「pandas」はゲームといったところでしょうか。
pandasの使い方
まずは簡単な使い方を学習しましょう。
今回紹介するのは下記の2つです。
- 空っぽのDataFrameを作る
- エクセルファイルからDataFrameを作る
まず、「DataFrame」とは何でしょうか。
DataFrameとは
DataFrameは、「仮想の表計算データベース」の一種です。前項で少し触れましたね。
エクセルのように行と列(縦と横)がある2次元データベースを「DataFrame」といいます。
1列だけの1次元データベースは「Series」といいますが今は覚えなくて大丈夫です。
空っぽのDataFrameを作ってみよう
まず初めに、空っぽのDataFrameを作ってみましょう。簡単にできます。
import pandas as pd
df = pd.DataFrame()
print(df)
コードはこれだけです。
コード内容を要約すると以下のとおりとなります。
- pandasのインポート
- 空っぽのDataFrameを作成
- (作ったDataFrameを表示)
一つ一つ解説いたします。
pandasのインポート
import pandas as pd
上記一文にて、「pandas」をインポートすることができます。
「インポート」とは何でしょうか?
前項で「インストール」は「書店で買ってきたpandasの本を家の本棚に置く」ようなものとお伝えしました。
「インポート」も例えるなら、「家の本棚からpandasの本を出して、机の上で開く」ようなものでしょうか。
「国語辞典」など、本棚にあるだけでは意味がなく、中身を見ることができません。
pandasを使うために、机の上で開いたというふうに思ってください。
「pandas」を使う際は、必ずこの「インポート」が必要になります。
インポートが終わったら、次に空っぽのDataFrameを作ります。
【as pd】の部分は何なの?
「as pd」の部分は無くても構いません。
ただし、無くした場合は、3行目の「pd」を「pandas」に書き換える必要があります。
これは、何度も「pamdas」と入力するのがめんどうな場合のため、略語にしているだけです。
今回はわかりやすく「pandas」→「pd」にしましたが、「pd」でなくても「aaaa」や「bbbb」など何でも構いません(※一部使えない単語があります)
その場合は、3行目の「pd」を「aaaa」や「bbbb」に変えてください。
空っぽのDataFrameを作成
df = pd.DataFrame()
上記一文にて、空っぽのDataFrameを作成することができます。
<テンプレ>
【 変数 = pd.DataFrame() 】
右辺は大文字と小文字が混在していますが、このままの表記で入力してください。
全て小文字にすると動作しません。
左辺の「変数」について、今回はdataframeを略して「df」という名前にしましたが、何でも構いません。
しかしながら、一部使えない名前があります。
詳細は下記記事をご参考ください。
作ったDataFrameを表示
print(df)
上記一文にて作ったDataFrameを表示することができます。
ただし、確認作業になるので、慣れてきたら省略しても大丈夫です。
表示結果を見てみましょう。
【表示結果】
Empty DataFrame
Columns: []
Index: []
「Empty DataFrame」、つまり空っぽのDataFrameが作成されたことがわかります。
「Columns」は列名、「Index」は行番号のことで、これらも空っぽという表示になっています。
【出力イメージ(空っぽのDataFrame)】
【 [参考] 出力イメージ(いろいろ詰まったDataFrame)】
空っぽのDataFrame作成は以上で終わりです。
上図のようにいろいろ追加してみたい!と思った方は下記記事をご参考ください。
エクセルファイルからDataFrameを作ってみよう
今度は、実際のエクセルファイルからデータを読み込んで、DataFrameを作ってみましょう。
import pandas as pd
df = pd.read_excel('input.xlsx')
上記コードにて、実際のエクセルファイル(input.xlsx)をDataFrameに変換することができます。
csvを読み込んだり、csvに書き出したりすることもできます。
詳細は下記記事で解説しておりますので、興味のある方はご参考ください。
最後に
pandasのインストール方法や使い方を解説いたしました。
pandasを使うことで、業務効率が爆上がりします。
データ集計や分析などのルーティンワークに取り入れて、めんどうな仕事を減らしましょう!
当ブログでは、Python関する情報を配信しております。
pandasに関する有益情報も公開しておりますので、他の記事も読んでいってください。
挫折せずにPythonを独学で学習する方法は特におすすめです。
最後までお読みいただき、ありがとうございました。がんばってください!