Kiến trúc của Spark

#dataengineer
#spark
#bigdata
#maide

Пікірлер: 31

  • @giabinhhoang2351
    @giabinhhoang2351Күн бұрын

    hay quá chị ơi. Trước h toàn xem của mấy ô ấn không hiểu nói j luôn. ước có kênh youtube dạy bằng tiếng mẹ đẻ

  • @hoannguyenvan9947
    @hoannguyenvan994722 күн бұрын

    Hay quá chị ơi! Mong chị làm video hướng dẫn làm project thực tế trên Databricks 😍

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын

    nhất định sẽ có nhé, chỉ là bao lâu thôi. Nhiều chủ đề chị muốn làm quá mà không cách nào nhân đôi nhân ba bản thân lên được

  • @thanhhocdata
    @thanhhocdata21 күн бұрын

    Mong chị làm video về triển khai các công nghệ như spark hadooo bằng docker và cách config ạ.

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын

    Mình note yêu cầu của bạn rồi nhé, có thời gian thích hợp mình sẽ ra video về chủ đề này

  • @thang4280
    @thang428017 күн бұрын

    Chị ơi, chị có thể ra video cách setup cụm spark trên nhiều node (tối thiểu 2-3 node) được không ạ ?

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    14 күн бұрын

    chị note yêu cầu nhé, một thời điểm thích hợp chị sẽ ra video về chủ đề này :)

  • @sonlh81
    @sonlh8119 күн бұрын

    Mình chuyển hướng sang làm DE, vốn là chỉ đọc thôi, nhưng sáng nay đọc bài của bạn về tài liệu DE free, tự nhiên cảm thấy hơi xáu hổ vì đúng là nợ bạn 1 comment. không nhũng bạn mà mình nợ những người có tám lòng đóng góp cho cộng đông như bạn, một lời khích lê. Dù có thể chả là gì nhưng mình vẫn comment. Và mong kiến thức của bạn sẽ được mọi người chia sẻ và giúp đỡ được nhiều người hơn nữa

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    17 күн бұрын

    Cám ơn cmt của bạn. Chia sẻ thật là để làm ra 1 video techniqe tốn rất nhiều thời gian và công sức, dù biết trước khi làm là sẽ không có nhiều người xem như là những video về giải trí hay những chủ đề non-tech, nhưng mình vẫn làm vì mình tin là ai thật sự cần thì sẽ thấy video của mình hay và hữu ích, còn những ai không cần thì không phải là đối tượng mình hướng đến. Vậy nên những cmt, like của mọi người khi xem video sẽ truyền động lực rất nhiều cho mình. Và thật sự, khi làm video, mình cũng chỉ mong được nhìn thấy những tương tác thật từ người xem để có thể chia sẻ nhiều kiến thức hơn. Một lần nữa, cám ơn bạn rất nhiều vì đã bỏ thời gian ra để cmt, nó rất ý nghĩa với mình.

  • @nguyenucnam8626
    @nguyenucnam862615 күн бұрын

    thumbnail cute quá chị

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    14 күн бұрын

    ôi, lần đầu có người để ý cái thumbnail của tui. Cám ơn em nhiều, chắc em cũng cute lắm đúng không ? 🥰

  • @ducanh_ng8357
    @ducanh_ng835716 күн бұрын

    Chị ơi cho em hỏi khi mình dùng pyspark trên laptop cá nhân thì mình không cần quan tâm đến việc cấu hình các worker node mà chỉ cần quan tâm đến việc cấu hình sparksession để dùng các tài nguyên trong máy đúng không ạ?

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    14 күн бұрын

    đúng rồi em, khi dùng ở máy cá nhân thì chúng ta chỉ có duy nhất 1 node vừa làm driver vừa làm worker luôn, vậy nên việc tính toán song song là dựa duy nhất vào số lượng core của máy.

  • @duyinh1734
    @duyinh173422 күн бұрын

    em dang di intern DE khong luong o mot cong ty co tieng la lua ga nan qua chi oi huhu

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын

    Ủa, sao em biết lùa gà mà vẫn làm? Liệu có thật là lùa gà không, hay chỉ là tin đồn thôi. Nếu em thấy công ty không ok thì nên tìm chỗ khác cho đỡ mất thời gian ý

  • @nhattuyen1123
    @nhattuyen112322 күн бұрын

    Chị cho e hỏi, e thấy trong requirement (các job DE), còn có yc về AWS (S3, Redshift...), vậy một DE cần biết những thứ đó ở mức nào, hay chỉ cần biết load và lưu data trên đấy thôi vậy chị

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын

    Cái này tùy level em, nếu chỉ là intern hay fresher thôi thì cũng chưa cần lắm đâu, chỉ cần biết khái niệm cơ bản là được. Còn những vị trí bắt đầu từ junior trở lên thì cũng cần biết dùng một chút, kiểu như em nói là load và lưu data, sau đó khi lên senior thì cần biết sâu hơn, không chỉ S3 Redshift mà còn cần biết cả glue, EMR, EC2, Lambda...

  • @nhattuyen1123

    @nhattuyen1123

    21 күн бұрын

    @@MaiDE-uq7ws e cảm ơn ạ

  • @QuangTran-yx7tg
    @QuangTran-yx7tg22 күн бұрын

    Chị nghĩ sao về Trino. Công ty e đang nghiên cứu triển khai Trino thay cho Spark . Trino bọn e test hiệu năng thấy nó thực sự vượt trội hơn spark

  • @duongtruong5691

    @duongtruong5691

    22 күн бұрын

    Trino là MPP, nó cần resource để duy trì chứ không như spark khi nào cần thì mới bắt đầu khởi tạo executor. Trino chỉ phù hợp cho query việc truy vấn, còn việc cần transform data phức tạp cũng như chịu lỗi tốt thì Spark ăn đứt

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын

    Cái này tùy vào từng project cụ thể và nhu cầu của từng doanh nghiệp. Trino thì hiệu suất cao do các worker nodes luôn sẵn sàng, nhưng vì để các worker nodes luôn sẵn sàng thì tài nguyên phải được duy trì liên tục (ngay khi không có truy vấn). Spark thì linh hoạt hơn, khi nào cần thì mới khởi tạo tài nguyên cho các job, nhưng cũng chính vì vậy nên có độ trễ của việc khởi tạo tài nguyên, dẫn đến hiệu suất so với Trino có thấp hơn một chút. Đổi lại thì Spark lại giúp giảm chi phí vì không cần duy trì tài nguyên liên tục. Ngoài ra spark còn linh hoạt ở khả năng scale up và scale down tài nguyên, nghĩa là nếu dữ liệu mà thay đổi liên tục thì spark sẽ co giãn tốt hơn là Trino. Thêm nữa, Spark còn có nhiều thư viện phong phú tích hợp sẵn để xử lý nhiều công việc và tác phụ phức tạp khác nhau như MLib, GraphX, Streaming, Trino thì chỉ tập trung vào SQL thôi.

  • @sonlh81
    @sonlh8115 күн бұрын

    Cho mình hỏi có thể đánh index trong spark ko, mình tìm hiểu qua thì nó nói là có nhưng có vẻ chưa rõ ràng lắm

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    14 күн бұрын

    Thực ra nếu là đánh index như cách truyền thống của sql thì không, nhưng spark có hai cách khác đó là Bucketing và Z-Order cũng giúp cải thiện hiệu suất và ý tưởng cũng tương đương như việc dánh index, bạn tham khảo thêm nhé

  • @sonlh81

    @sonlh81

    10 күн бұрын

    @@MaiDE-uq7ws Mình đã hiểu Bucketing rồi, cám ơn bạn, Z-Order chắc tìm hiểu sau vậy. Thằng spark này có cái nào để Schedule các job cần thực hiện giống như Cron job trên hangFire ko, hay phải dùng Air Flow hả bạn

  • @grabtv4211
    @grabtv421120 күн бұрын

    Deploy on-premise spark ổn ko Mai. Có video chưa nhỉ

  • @xuyen17
    @xuyen1722 күн бұрын

    🥰🥰

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын

    cám ơn em nhiều 🥰

  • @TanLuke2003
    @TanLuke200316 күн бұрын

    cho em hỏi Application master chỉ tạo trên duy nhất 1 Worker Node thôi hay sao a. Hay là mỗi Worker Node đều có một Application master riêng cho nó để tính toán mỗi worker node đó cần bao Ram hay Core ah

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    14 күн бұрын

    đúng rồi, application master (AM) chỉ tạo trên duy nhất 1 worker node thôi, và nó sẽ được dùng để tính toán tài nguyên cho tất cả các worker node trong hệ thống, spark không tạo AM riêng cho mỗi worker node.

  • @sherip008
    @sherip00822 күн бұрын

  • @MaiDE-uq7ws

    @MaiDE-uq7ws

    21 күн бұрын