PostgreSQLのGROUP BYと集計処理を完全解説!初心者向けSQL入門ガイド
生徒
「データベースから『売上の合計』や『部署ごとの人数』を計算したいときは、どうすればいいんですか?」
先生
「そんなときに使うのが『GROUP BY(グループバイ)』という命令です。バラバラに並んでいるデータを、特定の共通点ごとに『グループ分け』して計算するための便利な道具なんですよ。」
生徒
「グループ分け……。学校のクラス替えや、お菓子を種類ごとに分けるようなイメージですか?」
先生
「まさにその通りです!同じ種類を集めて、そこから合計や平均を出す方法を、今日は一緒に学んでいきましょう。PostgreSQL(ポストグレスキューエル)というデータベースを使って具体的に解説しますね。」
1. SQLとは何か?
SQL(エスキューエル)は、データベースと呼ばれる「大量のデータを整理して保存する箱」に対して指示を出すための言語です。 例えば、オンラインショッピングの注文履歴や、学校の生徒名簿といった情報を効率よく管理するために使われます。 データベースの中でも、特に人気が高い「PostgreSQL」は、世界中で使われている無料のソフトウェアです。
プログラミングと聞くと難しく感じるかもしれませんが、SQLは「〇〇の表から、〇〇を取り出して」という、人間に近い言葉で指示を出せるのが特徴です。 特に今回のテーマである「集計」は、ビジネスの現場で「先月の売上はどうだった?」「どの商品が一番売れている?」といった分析を行うために欠かせない技術です。
2. GROUP BYとは?「グループ分け」の仕組み
「GROUP BY」は、日本語で言うと「~ごとにまとめる」という意味です。 例えば、あるお店に「果物」と「野菜」の注文がたくさん入ってきたとしましょう。 バラバラに届いた注文を「カテゴリー(種類)」ごとに整理したいとき、この命令を使います。
例えば、以下のような「orders(注文)」という名前の表があるとします。
id | category | product_name | price | quantity
---+----------+--------------+-------+---------
1 | 野菜 | キャベツ | 150 | 2
2 | 果物 | りんご | 200 | 5
3 | 野菜 | レタス | 180 | 1
4 | 果物 | バナナ | 120 | 3
5 | 野菜 | トマト | 100 | 10
6 | 菓子 | チョコ | 150 | 2
この表から「野菜は何回注文されたか?」「果物は何回注文されたか?」を調べたい場合、 まず「category(カテゴリー)」が同じものを一箇所に集める必要があります。 これが「グループ化」です。
3. 集計関数(COUNT、SUM、AVG)の使い方
グループ分けをした後は、そのグループの中で「計算」を行います。 SQLでは、この計算を行うための専用の命令を「集計関数(しゅうけいかんすう)」と呼びます。 代表的なものをいくつか紹介しましょう。
- COUNT(カウント):データの件数を数えます。
- SUM(サム):数値の合計を出します。
- AVG(アベレージ):数値の平均を出します。
- MAX / MIN(マックス・ミン):最大値や最小値を探します。
実践例1:カテゴリーごとのデータ件数を数える
まずは、先ほどの注文表を使って、それぞれのカテゴリーで何件の注文があったかを数えてみましょう。
SELECT category, COUNT(*)
FROM orders
GROUP BY category;
このSQLを実行すると、データベースは内部で「野菜」「果物」「菓子」というグループを作り、それぞれの行が何個あるかを数え上げます。 結果は以下のようになります。
category | count
---------+-------
野菜 | 3
果物 | 2
菓子 | 1
4. 合計(SUM)を使って売上を計算する
次は、より実践的な「合計」の計算です。 単に件数を数えるだけでなく、それぞれのカテゴリーで合計いくら売れたのかを計算してみましょう。 「price(価格)」と「quantity(個数)」を掛け算して、その合計を出します。
実践例2:カテゴリーごとの総売上金額を出す
SELECT category, SUM(price * quantity) AS total_sales
FROM orders
GROUP BY category;
ここで「AS total_sales」という言葉を使っています。これは「エイリアス(別名)」と呼ばれるもので、 計算結果の列に分かりやすい名前を付けるためのテクニックです。 これを使わないと、結果の表の見出しが計算式のままになってしまい、少し読みづらくなります。
実行結果は以下の通りです。
category | total_sales
---------+-------------
野菜 | 1480
果物 | 1360
菓子 | 300
このように、膨大なデータであっても一瞬で計算を終わらせることができます。 これがPostgreSQLのようなデータベースを使う最大のメリットです。
5. HAVING句でグループを絞り込む
ここで一つ、初心者が間違いやすいポイントを解説します。 「特定のグループだけを表示したい」という場合、通常の検索で使う「WHERE(ウェア)」は使えません。 グループ化した後の結果に対して条件を付けたいときは、「HAVING(ハビング)」という命令を使います。
例えば、「合計売上が1000円以上のカテゴリーだけを表示したい」というケースを考えてみましょう。
実践例3:集計結果に対して条件を指定する
SELECT category, SUM(price * quantity) AS total_sales
FROM orders
GROUP BY category
HAVING SUM(price * quantity) >= 1000;
このSQLでは、まず全てのデータをグループ分けして合計を出し、その後で「1000円以上」というフィルターをかけています。 結果、売上が少ない「菓子」カテゴリーは除外されます。
category | total_sales
---------+-------------
野菜 | 1480
果物 | 1360
「WHEREはグループ分けをする前にデータを絞る」「HAVINGはグループ分けをした後に結果を絞る」と覚えるとスムーズです。 この違いをマスターすると、SQLの中級者への第一歩を踏み出したと言えるでしょう。
6. 複数の項目でグループ分けをする
さらに高度なテクニックとして、複数の項目を組み合わせてグループ化することも可能です。 例えば「店舗ごと」かつ「カテゴリーごと」に集計したい場合などです。
新しいデータを見てみましょう。今度は「shop(店舗名)」という情報が加わった「sales_data」テーブルです。
id | shop | category | amount
---+--------+----------+-------
1 | 東京店 | 飲料 | 500
2 | 大阪店 | 飲料 | 450
3 | 東京店 | 食品 | 1000
4 | 東京店 | 飲料 | 300
5 | 大阪店 | 食品 | 1200
6 | 大阪店 | 飲料 | 600
実践例4:店舗とカテゴリーの組み合わせで集計
SELECT shop, category, SUM(amount)
FROM sales_data
GROUP BY shop, category
ORDER BY shop ASC;
「ORDER BY(オーダーバイ)」は、結果を並び替えるための命令です。 「ASC」は昇順(小さい順、あいうえお順)を意味します。 実行結果は、それぞれの店舗の中で、さらにカテゴリーごとに合計が計算されたものになります。
shop | category | sum
-------+----------+------
大阪店 | 飲料 | 1050
大阪店 | 食品 | 1200
東京店 | 飲料 | 800
東京店 | 食品 | 1000
このようにGROUP BYの後ろにカンマで区切って列名を書くことで、より細かな分析ができるようになります。 お店の運営やビジネスの分析では、このように多角的な視点でデータを見ることが非常に重要です。
7. データのNULL(ヌル)に注意しよう
最後に、初心者の方がよくつまずく「NULL(ヌル)」という概念についてお話しします。 データベースの世界では、何もデータが入っていない「空っぽ」の状態を「NULL」と呼びます。
GROUP BYでグループ分けをするとき、もしカテゴリー名が入力されていないデータ(NULL)があったらどうなるでしょうか? 実は、PostgreSQLでは「NULL」も一つのグループとしてまとめられます。 「未分類」という一つの箱が作られるようなイメージですね。
集計処理を行う際は、事前にデータが正しく入力されているか確認することも大切です。 もしNULLを除外して集計したい場合は、以下のように「IS NOT NULL」という条件を組み合わせて使います。
SELECT category, COUNT(*)
FROM orders
WHERE category IS NOT NULL
GROUP BY category;
このように、SQLは基礎を一つずつ積み上げていけば、必ず使いこなせるようになります。 今回学んだ「GROUP BY」と「集計関数」は、データベースを扱う上で最もパワフルな機能の一つです。 ぜひ自分の手でいろいろなデータを集計して、その便利さを実感してみてください。