Ở trong video này, mình có demo một số thao tác để xử lý và làm việc với dữ liệu:
- Đưa dữ liệu từ Excel vào Cơ sở dữ liệu (Postgresql)
- Trích xuất dữ liệu từ Cơ sở dữ liệu và phân tích bằng thư viện Pandas
- Trực quan hoá dữ liệu bằng thư viện Seaborn
- Phân tích dữ liệu bằng SQL trên một công cụ có thể xử lý Big Data (Spark)
Một số khái niệm mà mình có đề cập và có thể chưa giải thích đủ rõ ở trong video này:
- Database: Cơ sở dữ liệu, là một công cụ chứa và quản lý dữ liệu cho phép việc trích xuất và truy vấn hiệu quả
- Host: Máy chủ, là bất kỳ một thiết bị nào có kết nối mạng trong một mạng lưới máy tính và có thể gửi hoặc nhận dữ liệu
- Port: Cổng, là nơi một chương trình chạy trên một máy chủ trong một mạng lưới
- Localhost: Là tên máy chủ thể hiện cho việc chúng ta đang truy cập một chương trình chạy trên chính máy tính của mình
- SQL: Ngôn ngữ truy vấn có cấu trúc, là ngôn ngữ lập trình tiêu chuẩn được sử dụng để quản lý và thao tác với cơ sở dữ liệu. Nó cung cấp một tập hợp các câu lệnh để tạo, truy xuất, cập nhật và xóa dữ liệu được lưu trữ trong cơ sở dữ liệu
- Code Editor: Trình chỉnh sửa mã, là một công cụ phần mềm cung cấp môi trường chuyên dụng để viết và chỉnh sửa mã nguồn
- Integrate Development Environment (IDE): Môi trường phát triển tích hợp, là một ứng dụng phần mềm cung cấp một bộ công cụ và tính năng toàn diện để hỗ trợ phát triển phần mềm, chẳng hạn như Code Editor
- Jupyter Notebook: Là một ứng dụng cho phép người dùng tạo và chia sẻ các tài liệu tương tác có chứa Code trực tiếp, các biểu đồ trực quan hóa hay các văn bản giải thích
- Pandas: Là một thư viện phân tích và thao tác dữ liệu dành cho ngôn ngữ lập trình Python
- Seaborn: Là một thư viện trực quan hóa dữ liệu trong Python
- Distributed Computing: Điện toán phân tán, là một phương pháp sử dụng nhiều máy tính được kết nối với nhau thành một hệ thống để cùng làm việc và giải quyết các vấn đề tính toán phức tạp hay với dữ liệu lớn. Trong điện toán phân tán, khối lượng công việc được phân chia và phân bổ trên nhiều máy, cho phép xử lý song song và tận dụng sức mạnh và tài nguyên chung của mạng
- Cluster: Cụm máy tính, là một nhóm các máy tính được kết nối với nhau, hoạt động cùng nhau như một hệ thống thống nhất để thực hiện các tác vụ tính toán, giúp thực hiện Điện toán phân tán
- Spark: Là một khung điện toán phân tán để xử lý và phân tích Big Data. Nó được thiết kế để xử lý hiệu quả khối lượng dữ liệu lớn trên các Cụm máy tính phân tán

Пікірлер: 6

@user-dg2mb4jj4k Жыл бұрын
hay lắm anh ! chúc anh thành công nhé anh
@nhamhung
Жыл бұрын
Cảm động quá 😢 cảm ơn em nha ❤
@HanhTran-ob4gf Жыл бұрын
Dễ hiểu ghê, bạn ra thêm nhiều video nữa nhé
@nhamhung
Жыл бұрын
Cảm ơn bạn nha ❤
@nguyenthanhh20047 күн бұрын
Sếp ơi, gửi em source với ạ
@nhamhung
6 күн бұрын
Đây bro nha: github.com/nhamhung/youtube-scripts/tree/main/week1

Xử lý dữ liệu với Postgresql, Python, SQL, Pandas và Spark

Пікірлер: 6

@nhamhung

Жыл бұрын

@nhamhung

Жыл бұрын

@nhamhung

6 күн бұрын

Келесі