Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

Показать описание

Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

Hello Diu Túp, hôm nay chúng mình xin giới thiệu đến các bạn 1 video mới trong Series "Tự Học Data Science Cho Người Mới Bắt Đầu". Và chủ đề của Video hôm này đó chính là "Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn" 🤩 !

Tiền xử lý dữ liệu (Data Pre-Processing) là một kỹ thuật được sử dụng để chuyển đổi dữ liệu thô thành một định dạng dễ hiểu. Dữ liệu trong thế giới thực (dữ liệu thô) luôn không đầy đủ và dữ liệu đó không thể được gửi qua các mô hình vì nó sẽ gây ra một số lỗi nhất định. Đó là lý do tại sao chúng ta cần xử lý trước dữ liệu trước khi gửi nó qua một mô hình.

⏱ Timestamps:
[0:00] Giới thiệu về Series "Tự Học Data Science Cho Người Mới Bắt Đầu"
[0:30] Giới thiệu về Nội Dung của Video
[5:00] Nhập các thư viện và Đọc tập dữ liệu
[8:00] Xử lý các giá trị bị thiếu (missing data replacement)
[20:30] Mã hoá các dữ liệu danh mục
[27:40] Cách tách dữ liệu (dataset) thành training và test sets
[40:00] Tiêu chuẩn hóa / Tỷ lệ tính năng (Feature Scaling)

------------- ✪ About CodeXplore Channel ✪ ------------
CodeXplore là một platform chia sẻ kiến thức về Lập Trình và Trí Tuệ Nhân Tạo (AI) dành cho các bạn trẻ Việt Nam.

Channel CodeXplore sẽ focus vào các chủ đề sau:
► Machine Learning (Máy Học) và Data Science (Khoa Học Dữ Liệu)
► Interview Preparation (Cấu Trúc Dữ Liệu và Thuật Toán & LeetCode Solutions)
► Lập Trình Python (Cơ Bản, Lập Trình Hướng Đối Tượng, Lập Trình Game)
------------------

➥ CodeXplore Social Links:

----------------------------------------------/-------------
© Bản quyền thuộc về CodeXplore
© Copyright by CodeXplore & Do not Reup

#MachineLearning #ScikitLearn #DataPreProcessing

Рекомендации по теме

Комментарии

Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link:

Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)

CodeXplore

trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data), hiện tại python có selenium crawl nhưng khá lâu, bs4 thì nhanh hơn nhưng ko làm việc với js, scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee, lazada, tiki, vv...vv) e xin cảm ơn !

vutran-pjzf

Rất ý nghĩa từ nội dung đến cách chia sẻ và cách sống!🎉

namnam

Anh ra thêm về video data science tiếp đi anh, cứ cuối tuần em chờ suốt.

quangtran

a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.

khoanguyentien

Anh có thể làm một series về SQL với python được k ạ. A nói rất dễ hiểu. E cám ơn a ạ

trungnguyenthanh

anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành, inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản, em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁

hoami

anh ra thêm video về machine learning, deep learning như này đi ạ hay quá luôn, học dễ hiểu lắm tr

tep

Bài giảng của anh rất hay và bao quát toàn bộ kiến thức. Hi vọng anh ra nhiều video ạ!

damnguyen

Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.

TuAnh-vbgr

Em đang muốn theo học machine learning, theo e tìm hiều thì mới một framework là scikitlearn, a cho e hỏi ngoài ra mình cần học nhưng frame work gì ạ

thuonghater

a ơi cho em hỏi là mình StandardScaler dữ liệu train rồi khi dự đoán với dữ liệu thực thì làm thế nào ạ? mong được a rep

trandanh_nietisland

cảm ơn a rất nhiều ạ. Mong a ra nhiều vid hơn về chủ đề khoa học dữ liệu

minhnguyenhoang

x_train[:, 3:] = sc.fit_transform(x_train[:, 3:])
x_test[:, 3:] = sc.transform(x_test[:, 3:])
Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.

theanhbui

Anh cho em hỏi là ở phần Cleaning Data thì mình dùng method "fillna()" của Pandas tốc độ nó có chậm hơn cách làm của anh trong video không ạ?

blackholeschanel

Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a

doducanh

mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ

TinLee

Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1, 2, 3 hay 5, 6, 7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh

duynghiavo

Mong anh tiếp tục phát triển series này ạ. Quá hay luôn anh ơi

tuenguyen

Anh ơi cho em hỏi với ạ. Sau khi tách data xong thì làm thế nào để lưu file về máy dưới dạng csv file ạ?. Em cảm ơn anh

MyNguyen-wzfd

Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

Hướng Dẫn Tạo Kênh Youtube Kiếm Tiền Mới Nhất -/ Khỏi Làm Công Nhân

Hướng dẫn lập tiến độ công việc bằng excel (Vô cùng đơn giản)

Hướng Dẫn Cách Lập Tiến Độ Thi Công Và Lập Kế Hoạch Nhân Lực Bằng Excel Cực Kỳ Chuyên Nghiệp...

Hướng Dẫn Chi Tiết Nền Tảng Fiverr Dành Cho Người Mới Bắt Đầu | Công Việc Làm Thêm Cho Freelancer...

P1: Bắt đầu | HƯỚNG DẪN ĐẦU TƯ CHỨNG KHOÁN CƠ BẢN, A-BỜ-CỜ ( TỪ A-Z )

Hướng dẫn rút tiền bằng QR tại ATM của Vietcombank

Hướng Dẫn Đặt Mục Tiêu 😎 Chất Miễn Bàn - Bài Học Kinh Doanh

Hướng Dẫn Chạy Node Gradient Network | Dự Án DePIN Khủng Tiềm Năng X10 - X50

Hướng Dẫn Giao Dịch Future Binance Trên Điện Thoại A - Z

Hướng dẫn Lập bảng Tiến độ Sản lượng Sản xuất chi tiết dễ hiểu nhất

Hướng Dẫn Keylogger Đơn Giản bằng Python | Lập Trình Gián Điệp Python

TIẾT LỘ - HƯỚNG DẪN 5 kĩ thuật tráo bài đỉnh cao như 1 ảo thuật gia? TOP 5 | TrungKP...

Pi network - Hướng dẫn KYC Pi chi tiết mới nhất duyệt trong 5 phút | PI NETWORK VN

Hướng dẫn kỹ năng phòng ngự #2 I Kèm người

Hướng Dẫn Đầu Tư Chứng Khoán Cơ Bản Từ A-Z (F0 phải biết) | Cú Thông Thái

Excel cho người đi làm | #06 Hướng dẫn lập bảng theo dõi tiến độ công việc trên excel...

HƯỚNG DẪN TẠO MÃ VÀ CHUYỂN TIỀN BẰNG MÃ QR TRÊN VCB DIGIBANK

Hướng Dẫn Chuyển Tiền Ngay Trong Zalo

Hướng dẫn tự vệ sinh MÁY LẠNH tại nhà với các bước cực dễ, ai cũng làm được!...

Hướng Dẫn 6 Trò Ảo Thuật Tiền Hay Nhất Thế Giới

Hướng dẫn cách chuyển tiền về Việt Nam siêu dễ!

Hướng Dẫn Đầu Tư Tích Sản Vào Chứng Chỉ Quỹ ETF (A-Z) | Cú Thông Thái...

Hướng dẫn kiếm tiền từ Youtube đơn giản?