데이터 분석을 위한 SQL 레시피2

7강.하나의 테이블에 대한 조작

sql의 특징은 데이터를 집합으로 다루는 것

#1 데이터 집약

-그룹의 특징 잡기

집약함수:여러 레코드를 기반으로 하나의 값을 리턴하는 함수

>테이블 전체의 특징량 계산하기

COUNT:지정한 컬럼의 레코드 수 리턴

DISTINCT:중복 제외

SUM:합계,AVG:평균(컬럼의 자료형이 정수 또는 실수의 숫자 자료형이어야함)

MAX:최댓값,MIN:최솟값(대소 비교가 가능한 자료형(숫자,문자열,타임스탬프등에 적용가능)

>>집약함수를 사용해서 테이블 전체의 특징량 계산하는 쿼리

select

count(*) as total_count

,count(distinct user_id) as user_count

,count(distinct product_id) as product_count

,sum(score) as sum

,avg(score) as avg

,max(score) as max

,min(score) as min

from

review

;

>그루핑한 데이터의 특징량 계산하기

>>사용자 기반으로 데이터를 분할하고 집약 함수를 적용하는 쿼리

GROUP BY 구문 사용한 쿼리에서는 GROUP BY 구문에 지정한 컬럼 또는 집약 함수만 SELECT 구문의 컬럼으로 지정 가능

select

user_id

,count(*) as total_count

,count(distinct product_id) as product_count

,sum(score) as sum

,avg(score) as avg

,max(score) as max

,min(score) as min

from

review

group by

user_id

;

>집약 함수를 적용한 값과 전의 값을 동시에 다루기

>>윈도 함수를 사용해 집약 함수의 결과와 원래 값을 동시에 다루는 쿼리

윈도우 함수를 사용하려면 집약 함수 뒤에 OVER 구분을 붙이고 여기에 윈도 함수를 지정

매개변수에 PARTTITION BY <컬럼이름> 지정하면 해당 컬럼 값을 기반으로 그룹화하고 집약 함수 적용

select

user_id

,product_id

--개별 리뷰 점수

,score

--전체 평균 리뷰 점수

,avg(score) over() as avg_score

--사용자의 평균 리뷰 점수

,avg(score) over(partition by user_id) as user_avg_score

--개별 리뷰 점수와 사용자 평균 리뷰 점수의 차이

,score - avg(score) over(partition by user_id) as user_avg_score_diff

from

review

;

-그룹 내부의 순서

>ORDER BY 구문으로 순서 정의하기

ROW_NUMBER:순서에 유일한 순위 번호를 붙이는 함수

RANK:같은 순위의 레코드 뒤의 순위 번호를 건너뜀

DENSE_RANK:같은 순위의 레코드 뒤의 순위 번호를 건너뛰지 않음

LAG:현재 행을 기준으로 행 앞의 값 추출

LEAD:현재 행을 기준으로 행 뒤의 값 추출

select

product_id

,score

--점수 순서로 유일한 순위를 붙임

,row_number () over(order by score desc) as row

--같은 순위를 허용해서 순위를 붙임

,rank() over(order by score desc) as rank

--같은 순위가 있을 때 같은 순위 다음에 있는 순위를 건너 뛰고 순위를 붙임

,dense_rank () over(order by score desc) as dense_rank

--현재 행보다 앞에 있는 행의 값 추출하기

,lag(product_id) over(order by score desc) as lag1

,lag(product_id, 2) over(order by score desc) as lag2

--현재 행보다 뒤에 있는 행의 값 추출하기

,lead (product_id) over(order by score desc) as lead1

,lead (product_id, 2) over(order by score desc) as lead2

from popular_products

order by row

;

>ORDER BY 구문과 집약 함수 조합하기

select

product_id

,score

--점수 순서로 유일한 순위를 붙임

,row_number()over(order by score desc) as row

--순위 상위부터의 누계 점수 계산하기

,sum(score)

over(order by score desc) as row

rows between unbounded preceding and current row)

as cum_score

--현재 행과 앞 뒤의 행이 가진 값을 기반으로 평균 점수 계산하기

,avg(score)

over(order by score desc

rows between 1 preceding and 1 following)

as lacal_avg

--순위가 높은 상품 ID 추출하기

,first_value(product_id)

over(order by score desc)

rows between unbounded preceding and unbounded following)

as first_value

--순위가 낮은 상품 ID 추출하기

,last_value(product_id)

over(order by score desc)

rows between unbounded preceding and unbounded following)

as last_value

from popular_products

order by row

;

>윈도 프레임 지정에 대해

프레임 지정:현재 레코드 위치를 기반으로 상대적인 윈도를 정의하는 구문

>>윈도 프레임 지정별 상품 ID를 집약하는 쿼리

윈도우 함수에 프레임 지정하지 않으면 ORDER BY 구문이 없는 경우 모든 행,

ORDER BY 구문이 있는 경우 첫 행에서 현재 행까지가 디폴트 프레임으로 지정된다

select

product_id

,score

--점수 순서로 유일한 순위를 붙임

,row_number()over(order by score desc) as row

--가장 앞 순위부터 가장 뒷 순위까지의 범위를 대상으로 상품 ID 집약하기

,array_agg(product_id)

, collect_list(product_id)

over(order by score desc)

rows between unbounded preceding and unbounded following)

as whole_agg

--가장 앞 순위부터 현재 순위까지의 범위를 대상으로 상품ID 집약하기

,array_agg(pruduct_id)

, collect_list(product_id)

over(order by score desc

rows between unbounded preceding and current row)

as cum_agg

--순위 하나 앞과 하나 뒤까지의 범위를 대상으로 상품ID 집약하기

,array_agg(product_id)

, collect_list(product_id)

over(order by score desc rows between 1 preceding and 1 following)

as local_agg

from popular_products

where category = 'action'

order by row

;

>PARTITION BY 와 ORDER BY 조합하기

>>윈도 함수를 사용해 카테고리들의 순위를 계산하는 쿼리

select

'공부기록 > SQL' 카테고리의 다른 글

데이터 분석을 위한 SQL 레시피6 (0)	2023.08.04
데이터 분석을 위한 SQL 레시피4 (0)	2023.08.03
데이터 분석을 위한 SQL 레시피3 (0)	2023.08.03
데이터 분석을 위한 SQL 레시피1 (0)	2023.08.02
SQL_1 (0)	2023.07.06

지니로그

데이터 분석을 위한 SQL 레시피2

'공부기록 > SQL' 카테고리의 다른 글

티스토리툴바

데이터 분석을 위한 SQL 레시피2

'공부기록 > SQL' 카테고리의 다른 글

관련글

티스토리툴바