🔍 df.describe()
trong Pandas là gì?
Trong Pandas, phương thức df.describe() được sử dụng để tóm tắt các thống kê cơ bản của DataFrame.
Nó giúp bạn nhanh chóng hiểu được các đặc điểm quan trọng của dữ liệu.
📌 1. Cách sử dụng df.describe()
Cú pháp cơ bản:
import pandas as pd
# Tạo DataFrame mẫudata = {'Tên': ['An', 'Bình', 'Chi'], 'Tuổi': [25, 30, 35], 'Lương': [500, 700, 1000]}
df = pd.DataFrame(data)
# Xem thống kê mô tả của các cột sốprint(df.describe())
📊 2. Kết quả df.describe()
Khi chạy df.describe(), nó sẽ hiển thị các thống kê cho các cột có kiểu số (int
, float
):
Tuổi | Lương | |
---|---|---|
count | 3.0 | 3.0 |
mean | 30.0 | 733.33 |
std | 5.0 | 251.66 |
min | 25.0 | 500.0 |
25% | 27.5 | 600.0 |
50% | 30.0 | 700.0 |
75% | 32.5 | 850.0 |
max | 35.0 | 1000.0 |
📌 Lưu ý: Cột kiểu chuỗi (str
) như Tên
sẽ không xuất hiện trong kết quả mặc định.
⚡ 3. df.describe(include='all')
: Thống kê cả dữ liệu dạng chuỗi
Nếu muốn xem thống kê cho cả dữ liệu dạng chuỗi (str
), dùng:
df.describe(include='all')
👉 Kết quả sẽ hiển thị cả số lượng giá trị (count
), số giá trị duy nhất (unique
), giá trị phổ biến nhất (top
), và tần suất của nó (freq
).
Ví dụ:
Tên | Tuổi | Lương | |
---|---|---|---|
count | 3 | 3 | 3 |
unique | 3 | NaN | NaN |
top | An | NaN | NaN |
freq | 1 | NaN | NaN |
mean | NaN | 30.0 | 733.33 |
std | NaN | 5.0 | 251.66 |
min | NaN | 25.0 | 500.0 |
50% | NaN | 30.0 | 700.0 |
max | NaN | 35.0 | 1000.0 |
✅ 4. Tổng kết
- df.describe() giúp tóm tắt dữ liệu số trong DataFrame.
- df.describe(include='all') hiển thị thống kê cả cột dạng chuỗi (
str
). - Hữu ích trong khám phá dữ liệu (EDA) trước khi phân tích hoặc xử lý dữ liệu.
Bạn có thể thử chạy trên tập dữ liệu của mình để hiểu rõ hơn nhé! 🚀
Không có nhận xét nào:
Đăng nhận xét