반응형
데이터 분석 작업에서는 데이터를 전처리하고 가공하는 과정이 필수적입니다. 이때, 함수를 활용하면 코드의 가독성과 재사용성을 높일 수 있습니다. 본 글에서는 데이터 분석에 유용한 파이썬 함수의 개념과 활용법을 소개하며, 실전에서 자주 사용하는 함수 예제도 함께 제공합니다.
1. 데이터 분석에서 함수의 역할
데이터 분석에서는 수많은 데이터를 처리해야 합니다. 이때, 동일한 연산을 반복적으로 수행하는 경우가 많기 때문에 함수를 활용하면 코드의 효율성을 높일 수 있습니다.
결측값(NaN) 처리 함수 예제
import pandas as pd
def clean_missing_values(df):
df_cleaned = df.dropna() # NaN 값 제거
return df_cleaned
data = {'이름': ['철수', '영희', '민수'], '점수': [90, None, 85]}
df = pd.DataFrame(data)
df_cleaned = clean_missing_values(df)
print(df_cleaned)
2. 반복 작업을 줄이는 함수 활용법
특정 컬럼 값 변환 함수
def convert_gender(gender):
return 1 if gender == '남' else 0
df['성별코드'] = df['이름'].apply(lambda x: convert_gender(x))
print(df)
여러 개의 컬럼을 한 번에 변환하는 함수
def normalize_column(df, column_name):
max_value = df[column_name].max()
min_value = df[column_name].min()
df[column_name] = (df[column_name] - min_value) / (max_value - min_value)
return df
df = normalize_column(df, '점수')
print(df)
3. 데이터를 분석하는 유용한 함수 활용법
통계값 계산 함수
def calculate_statistics(df, column_name):
mean_val = df[column_name].mean()
median_val = df[column_name].median()
std_val = df[column_name].std()
return {'평균': mean_val, '중앙값': median_val, '표준편차': std_val}
df = pd.DataFrame({'점수': [80, 85, 90, 70, 75]})
stats = calculate_statistics(df, '점수')
print(stats)
4. 데이터를 시각화하는 함수 활용
꺾은선 그래프(Line Plot) 함수
import matplotlib.pyplot as plt
def draw_line_chart(data):
plt.plot(data)
plt.xlabel('Index')
plt.ylabel('Value')
plt.title('Line Chart Example')
plt.show()
draw_line_chart([10, 20, 30, 40, 50])
막대 그래프(Bar Chart) 함수
def draw_bar_chart(categories, values):
plt.bar(categories, values)
plt.xlabel('Category')
plt.ylabel('Value')
plt.title('Bar Chart Example')
plt.show()
draw_bar_chart(['A', 'B', 'C'], [10, 20, 30])
5. 결론
파이썬 함수는 데이터 분석에서 반복 작업을 줄이고, 데이터 전처리와 가공을 쉽게 만들어 줍니다.
- 결측값 처리, 데이터 변환, 정규화 등 전처리 과정에서 함수를 활용하면 시간을 절약할 수 있습니다.
- 평균, 중앙값, 표준편차 등의 통계를 계산하는 함수를 만들어두면 데이터 분석이 훨씬 편리해집니다.
matplotlib
을 활용한 그래프 함수는 데이터를 쉽게 시각화하는 데 도움을 줍니다.
데이터 분석을 진행할 때는 이러한 함수를 적절히 활용하여, 효율적으로 데이터를 처리하고 인사이트를 도출하는 것이 중요합니다.
반응형