Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

preview_player
Показать описание
Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

Hello Diu Túp, hôm nay chúng mình xin giới thiệu đến các bạn 1 video mới trong Series "Tự Học Data Science Cho Người Mới Bắt Đầu". Và chủ đề của Video hôm này đó chính là "Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn" 🤩 !

Tiền xử lý dữ liệu (Data Pre-Processing) là một kỹ thuật được sử dụng để chuyển đổi dữ liệu thô thành một định dạng dễ hiểu. Dữ liệu trong thế giới thực (dữ liệu thô) luôn không đầy đủ và dữ liệu đó không thể được gửi qua các mô hình vì nó sẽ gây ra một số lỗi nhất định. Đó là lý do tại sao chúng ta cần xử lý trước dữ liệu trước khi gửi nó qua một mô hình.

⏱ Timestamps:
[0:00] Giới thiệu về Series "Tự Học Data Science Cho Người Mới Bắt Đầu"
[0:30] Giới thiệu về Nội Dung của Video
[5:00] Nhập các thư viện và Đọc tập dữ liệu
[8:00] Xử lý các giá trị bị thiếu (missing data replacement)
[20:30] Mã hoá các dữ liệu danh mục
[27:40] Cách tách dữ liệu (dataset) thành training và test sets
[40:00] Tiêu chuẩn hóa / Tỷ lệ tính năng (Feature Scaling)

------------- ✪ About CodeXplore Channel ✪ ------------
CodeXplore là một platform chia sẻ kiến thức về Lập Trình và Trí Tuệ Nhân Tạo (AI) dành cho các bạn trẻ Việt Nam.

Channel CodeXplore sẽ focus vào các chủ đề sau:
► Machine Learning (Máy Học) và Data Science (Khoa Học Dữ Liệu)
► Interview Preparation (Cấu Trúc Dữ Liệu và Thuật Toán & LeetCode Solutions)
► Lập Trình Python (Cơ Bản, Lập Trình Hướng Đối Tượng, Lập Trình Game)
------------------

➥ CodeXplore Social Links:

----------------------------------------------/-------------
© Bản quyền thuộc về CodeXplore
© Copyright by CodeXplore & Do not Reup

#MachineLearning #ScikitLearn #DataPreProcessing
Рекомендации по теме
Комментарии
Автор

Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link:

Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)

CodeXplore
Автор

trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data), hiện tại python có selenium crawl nhưng khá lâu, bs4 thì nhanh hơn nhưng ko làm việc với js, scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee, lazada, tiki, vv...vv) e xin cảm ơn !

vutran-pjzf
Автор

Rất ý nghĩa từ nội dung đến cách chia sẻ và cách sống!🎉

namnam
Автор

Anh ra thêm về video data science tiếp đi anh, cứ cuối tuần em chờ suốt.

quangtran
Автор

a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.

khoanguyentien
Автор

Anh có thể làm một series về SQL với python được k ạ. A nói rất dễ hiểu. E cám ơn a ạ

trungnguyenthanh
Автор

anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành, inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản, em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁

hoami
Автор

anh ra thêm video về machine learning, deep learning như này đi ạ hay quá luôn, học dễ hiểu lắm tr

tep
Автор

Bài giảng của anh rất hay và bao quát toàn bộ kiến thức. Hi vọng anh ra nhiều video ạ!

damnguyen
Автор

Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.

TuAnh-vbgr
Автор

Em đang muốn theo học machine learning, theo e tìm hiều thì mới một framework là scikitlearn, a cho e hỏi ngoài ra mình cần học nhưng frame work gì ạ

thuonghater
Автор

a ơi cho em hỏi là mình StandardScaler dữ liệu train rồi khi dự đoán với dữ liệu thực thì làm thế nào ạ? mong được a rep

trandanh_nietisland
Автор

cảm ơn a rất nhiều ạ. Mong a ra nhiều vid hơn về chủ đề khoa học dữ liệu

minhnguyenhoang
Автор

x_train[:, 3:] = sc.fit_transform(x_train[:, 3:])
x_test[:, 3:] = sc.transform(x_test[:, 3:])
Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.

theanhbui
Автор

Anh cho em hỏi là ở phần Cleaning Data thì mình dùng method "fillna()" của Pandas tốc độ nó có chậm hơn cách làm của anh trong video không ạ?

blackholeschanel
Автор

Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a

doducanh
Автор

mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ

TinLee
Автор

Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1, 2, 3 hay 5, 6, 7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh

duynghiavo
Автор

Mong anh tiếp tục phát triển series này ạ. Quá hay luôn anh ơi

tuenguyen
Автор

Anh ơi cho em hỏi với ạ. Sau khi tách data xong thì làm thế nào để lưu file về máy dưới dạng csv file ạ?. Em cảm ơn anh

MyNguyen-wzfd