NTM Solutions

Thứ Ba, 11 tháng 3, 2025

df.describe() trong Pandas là gì?

 

🔍 df.describe() trong Pandas là gì?

Trong Pandas, phương thức df.describe() được sử dụng để tóm tắt các thống kê cơ bản của DataFrame

Nó giúp bạn nhanh chóng hiểu được các đặc điểm quan trọng của dữ liệu.


📌 1. Cách sử dụng df.describe()

Cú pháp cơ bản:

import pandas as pd

# Tạo DataFrame mẫu
data = {'Tên': ['An', 'Bình', 'Chi'],
        'Tuổi': [25, 30, 35],
        'Lương': [500, 700, 1000]}

df = pd.DataFrame(data)

# Xem thống kê mô tả của các cột số
print(df.describe())

📊 2. Kết quả df.describe()

Khi chạy df.describe(), nó sẽ hiển thị các thống kê cho các cột có kiểu số (int, float):

Tuổi Lương
count 3.0 3.0
mean 30.0 733.33
std 5.0 251.66
min 25.0 500.0
25% 27.5 600.0
50% 30.0 700.0
75% 32.5 850.0
max 35.0 1000.0

📌 Lưu ý: Cột kiểu chuỗi (str) như Tên sẽ không xuất hiện trong kết quả mặc định.


3. df.describe(include='all'): Thống kê cả dữ liệu dạng chuỗi

Nếu muốn xem thống kê cho cả dữ liệu dạng chuỗi (str), dùng:

df.describe(include='all')

👉 Kết quả sẽ hiển thị cả số lượng giá trị (count), số giá trị duy nhất (unique), giá trị phổ biến nhất (top), và tần suất của nó (freq).

Ví dụ:

Tên Tuổi Lương
count 3 3 3
unique 3 NaN NaN
top An NaN NaN
freq 1 NaN NaN
mean NaN 30.0 733.33
std NaN 5.0 251.66
min NaN 25.0 500.0
50% NaN 30.0 700.0
max NaN 35.0 1000.0

4. Tổng kết

  • df.describe() giúp tóm tắt dữ liệu số trong DataFrame.
  • df.describe(include='all') hiển thị thống kê cả cột dạng chuỗi (str).
  • Hữu ích trong khám phá dữ liệu (EDA) trước khi phân tích hoặc xử lý dữ liệu.

Bạn có thể thử chạy trên tập dữ liệu của mình để hiểu rõ hơn nhé! 🚀

Không có nhận xét nào:

Đăng nhận xét

Facebook Youtube RSS