Mai DE

21 күн бұрын

Hadoop Architecture

Пікірлер

@namvutuan219710 сағат бұрын

chị ơi, em đã làm như chị trên video rồi mà chưa đc, chị hỗ trợ em đc ko ạ

@ntbs352921 сағат бұрын

Hi c Mai, cảm ơn chị về những videos rất bổ ích cho các bạn đang nghiên cứu & làm việc với Spark cả ở level intermediate hay advanced. Em cũng xin được góp vui một chút về câu hỏi Spark cung cấp nhiều syntax + built-in algorithm cho user sử dụng cho việc truy vấn cột thì dưới góc nhìn của em, Spark trước hết đảm bảo được tính linh hoạt ở mặt code implementation giúp user dễ tiếp cận dù background có là SQL-ers ^^ hay là programmer cũng có thể dễ dàng hiểu được syntax. Đào sâu vào một chút thì Spark có áp dụng một số thuật toán để phục vụ cho từng mục đích sử dụng (concept: Logical & Physical Plan, Catalyst optimizer,...). Ví dụ như 'col'/'expr' thì dùng để viết thêm các transformation ở đằng sau, select cột hay truy vấn kiểu index của dataframe(df['order_st']) thì để dùng trực tiếp cột. Tuy nhiên, cái hay của Spark cung cấp tới user đó là Spark tối ưu cho từng case giúp cho performance của mỗi syntax ko có khác biệt quá to lớn, cũng đủ chứng minh tại sao Databricks (Spark) đang là 1 trong 2 big data tool bứt phá nhất hiện nay(tool còn lại là Snowflake ^^)

@trungthanh4134Күн бұрын

Em có một câu hỏi mong chị giải đáp ạ. Như ví dụ trên video của chị thì file dữ liệu được spark đọc và chia thành các partition đều nhau. Nhưng trong một số trường hợp, ở giai đoạn đọc file các partition không được phân bố đồng đều(data skew), chẳng hạn cpu với 4 core, em check spark ui thì có 4 partition, nhưng partition 1 và 3 là có dữ liệu, partition 2 và 4 lại không có. Vậy chỉ có 2 core là hoạt động chính để tính toán, trong trường hợp này mình có nên repartition để tận dụng được hết 4 core không ạ?

@manhlevan6496Күн бұрын

c ơi em mới tốt nghiệp Quản lý công nghiệp theo data analyst vài năm rồi sang DE có dễ không ạ

@giabinhhoang23512 күн бұрын

Chị cho e hỏi, e ko biết python nhưng học sâu về sql thì mik có dùng sql cho spark đc ko

@MaiDE-uq7wsКүн бұрын

dùng sql cho spark là sao em? Spark là spark còn sql là sql chứ? Nếu em không muốn học python mà muốn học spark luôn thì cũng được, chỉ là sẽ khó hiểu hơn thôi. Nhưng nếu em đã có mindset về lập trình rồi, thì em bỏ qua python cũng ok nhé

@giabinhhoang2351Күн бұрын

@@MaiDE-uq7ws à tức là mik code sql trên spark để chỉnh sửa etl data ấy ạ

@Lunalevi-toan2 күн бұрын

Chắc cách 4,5 linh hoạt hơn, có thể thay đổi dữ liệu lấy ra chẳng hạn. Em đoán trước thế mà chưa thử kkk.

@MaiDE-uq7wsКүн бұрын

chờ video tuần sau để so câu trả lời nhé ;)

@xuyen172 күн бұрын

@MaiDE-uq7wsКүн бұрын

🥰🥰

@atphantien91562 күн бұрын

Cảm ơn chị rất nhiều ạ

@MaiDE-uq7ws2 күн бұрын

chị cũng cám ơn em ❤

@khanhsn2 күн бұрын

Chào chị. Em comment này để cảm ơn chị. Là một người thiên rất nhiều về cảm tính, học kỹ thuật ra nhưng lại làm trong ngành truyền thông, em cũng đã xem rất nhiều video của nhiều người nhưng em lại thấy có thể dễ hiểu, dễ tiếp thu nhất từ video của chị. Điểm cộng của chị là video rất logic, trực quan, đi thẳng vào trọng tâm giúp người nghe rất dễ nắm bắt, dễ hiểu. Còn nhiều video ngoài kia nhiều người nói lan man và bị cái tôi cao quá làm cho nội dung mang thiên kiến rất nhiều. Em thấy để làm được video như chị thì phải có kỹ năng sư phạm, có người làm giỏi nhưng thiếu kỹ năng sư phạm khiến em rất "mệt não" khi phải vừa nghe vừa audit lại thông tin của họ. Em rất thích cách chị rạch ròi đâu là cái cơ bản, đâu là từ kinh nghiệm của chị và thông tin đó có điểm mạnh, điểm yếu như thế nào. Một chút về em thì em rất hứng thú với lĩnh vực dữ liệu, tuy nhiên cho đến tận bây giờ khi xem video của chị thì em mới thực sự hiểu dữ liệu và làm việc với dữ liệu là gì. Em muốn gửi lời cảm ơn và ủng hộ chị tiếp tục các video học về dữ liệu nhé, em thu thập được rất nhiều kiến thức bổ ích. Cảm ơn chị nhiều. ^^

@MaiDE-uq7ws2 күн бұрын

Cám ơn em rất nhiều về một cmt thật sự tâm huyết. Đúng là bao công sức thời gian bỏ ra làm video thì cũng chỉ mong nhận lại được những tình cảm như vậy. Chia sẻ thật với em, là hồi đầu chị quyết định xây kênh, chị đã xác định là sẽ không có nhiều người xem video của chị, nó quá là technique đi, mọi người hay thích xem những video giải trí hoặc non-tech, vậy nên cmt của em khiến chị rất xúc động và khiến chị tin rằng mình vẫn đang làm đúng và đâu đó vẫn có người cần mình. Thật sự cám ơn em rất nhiều về những chia sẻ chân thành. Đây chính là động lực rất lớn để chị tiếp tục dành thời gian để làm video. Một lần nữa cám ơn em và mong em sẽ luôn ủng hộ chị 🥰

@khanhsn2 күн бұрын

@@MaiDE-uq7ws Trên nền tảng KZread này và xu hướng mạng xã hội nói chung thì mọi người đều thích những video có tính giải trí hơn. Nhưng đến lúc cần có video thực sự nghiêm túc và technical thì lại không có, hoặc rất ít. Em rất thích cách chị giải thích dễ hiểu, dễ tiếp thu, xúc tích những vấn đề technical giúp người xem như em dễ hiểu, dễ học theo mà không bị bối rối như rừng kiến thức ngoài kia. Người tự học như em thì phải mất rất nhiều thời gian để tự tổng hợp và tự đánh giá kiến thức đó. Nên em rất thích cách chị đã định vị kênh của chị giống như một tài liệu mà mọi người có thể tham khảo khi tìm hiểu về Data, Spark,... Ủng hộ con đường chị đang đi nhiều lắm.

@MaiDE-uq7wsКүн бұрын

@@khanhsn một lần nữa cám ơn em rất nhiều vì đã ủng hộ và tiếp thêm sức mạnh cho chị ❤

@tantainguyen05023 күн бұрын

Cảm ơn chị rất nhiều, em vừa tốt nghiệp đại học và đang muốn chuyển hướng từ AI engineer sang DE, rất vui vì trong lúc chuyển hướng em gặp được một người thầy/cô để học như chị.

@MaiDE-uq7ws2 күн бұрын

cám ơn em đã xem video và để lại cmt, chị thì không học sư phạm nhưng rất vui vì em thích những video của chị. Mong em sẽ luôn theo dõi và ủng hộ chị nhé 🥰

@trungthanh41344 күн бұрын

nội dung cô đọng, dễ thấm

@MaiDE-uq7ws2 күн бұрын

cám ơn bạn ❤

@KhinaothanhDEthioiten-xo6zo4 күн бұрын

Cảm ơn chị, bài giảng dễ hiểu lắm ạ

@MaiDE-uq7ws2 күн бұрын

cám ơn em đã xem video và để lại cmt nhé 🥰 Thật sự chị rất vui khi biết được cảm nhận của em sau khi xem video

@_QuocAnhNguyen-zk5pb4 күн бұрын

Chị ơi e thao tác đến : from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Python Spark SQL basic sample").getOrCreate() rdd = spark.sparkContext.textFile(r"C:\data\SPARK_RDD.csv") nhưng lại không tạo được " SPARK_RDD.csv " trong folder data, chị giúp e với ạ

@MaiDE-uq7ws2 күн бұрын

em chụp màn hình code và lỗi rồi inbox cho chị nhé, chị sẽ xem xem có giúp được em không

@fineter4 күн бұрын

Hi vọng là chị sẽ mở 1 khóa học riêng về DE ạ.

@MaiDE-uq7ws2 күн бұрын

Cám ơn cmt của em :) Chị sẽ suy nghĩ về đề nghị này nhé 🥰

@TanLuke20035 күн бұрын

Chị có thể hướng dẫn cách tự đọc API trên trang Spark được không ạ. Em đọc mà không hiểu gì hết :((

@MaiDE-uq7ws2 күн бұрын

ok, chị note yêu cầu của em rồi nhé, khi nào thích hợp chị sẽ ra video về chủ đề này

@kietne92515 күн бұрын

Cho em hỏi là các executors ko thể làm việc song song hay sao ạ? Vì nó có thể làm việc song song thì ở thiết kế Thin executor nó cũng có thể tính toán song song như bên fat

@GiaBao-nc8ox5 күн бұрын

Em cảm ơn về chia sẻ của chị, cho e hỏi thêm là khi e bắt đầu học về mảng DE thì mình có cần học kĩ về phần design data warehouse ko ạ . Tại e thấy những job về DE họ cũng có yêu cầu về phần này

@MaiDE-uq7ws2 күн бұрын

cái này thì tùy theo em đi theo hướng DE xử lý dữ liệu lớn hay DE xử lý dữ liệu thông thường. Nếu em đi theo hướng xử lý dữ liệu lớn thì em chỉ cần biết cơ bản thôi, không cần đi sâu.

@thang42806 күн бұрын

Chị ơi, cho em hỏi chút là mình nên setup big data tools trên windows hay linux ạ ? Môi trường nào được ưa chuộng hơn khi đi làm thực tế ạ ?

@MaiDE-uq7ws2 күн бұрын

thực ra khi làm việc thực tế, mình code ở máy local rồi deploy lên cloud, nên là linux hay windows cũng không ảnh hưởng. Mọi người cứ hay chuộng linux, nhưng với trải nghiệm của chị làm DE từ trước đến giờ, chị toàn dùng windows, không ảnh hưởng gì hết

@thang42802 күн бұрын

@@MaiDE-uq7ws dạ vâng, em cảm ơn chị đã chia sẻ ạ !!

@TanLuke20036 күн бұрын

hi chị Mai, em có 1 file text thực hành RDD rùi chuyển sang Dataframe và lưu xuống disk ạ. nhưng mà lúc lưu thì nó lại báo lỗi là Py4JJavaError: An error occurred while calling o1873.csv. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 116.0 failed 1 times, most recent failure: Lost task 0.0 in stage 116.0 (TID 89) (LAPTOP-SAKB4J4K executor driver): org.apache.spark.SparkException: [TASK_WRITE_FAILED] Task failed while writing rows to file:/D:/DATA_ENGINEERING/LEARN/data1_new.csv. at org.apache.spark.sql.errors.QueryExecutionErrors$.taskFailedWhileWritingRowsError(QueryExecutionErrors.scala:774) Em không biết là RDD thì làm luôn RDD, dataframe thì làm luôn bên dataframe, mà em lại mix 2 cái lại với nhau v thì có sau không ạ

@hoangmaixuan13077 күн бұрын

Cảm ơn chị rất nhiều, hy vọng chị luôn luôn tràn đầy năng lượng để tiếp tục chia sẻ kiến thức cho những bạn newbie có định hướng khi muốn bước chân vào ngành DE

@MaiDE-uq7ws7 күн бұрын

cám ơn em nhiều, chị cũng chúc em sớm trở thành một DE giỏi nhé 🥰

@danle40398 күн бұрын

về spark với cloud thì mình nên học cái nào trước vậy chị

@MaiDE-uq7ws7 күн бұрын

em nên tập trung học spark trước nhé, vì spark là core của xử lý dữ liệu lớn, còn cloud thì học sau cũng được, mà có nhiều công ty còn không dùng cloud cơ

@vanphanminh46718 күн бұрын

cảm ơn về chia sẻ của chị

@vanphanminh46718 күн бұрын

cảm ơn chia sẻ của chị

@MaiDE-uq7ws7 күн бұрын

cám ơn em đã cmt sau khi xem xong video :)

@vanphanminh46718 күн бұрын

cảm ơn chị đã chia sẻ

@MaiDE-uq7ws7 күн бұрын

cám ơn em nhiều 🥰

@nguyenucnam862610 күн бұрын

thumbnail cute quá chị

@MaiDE-uq7ws9 күн бұрын

ôi, lần đầu có người để ý cái thumbnail của tui. Cám ơn em nhiều, chắc em cũng cute lắm đúng không ? 🥰

@giabinhhoang235110 күн бұрын

e hướng data engineer mà thấy lắm cái quá kafka, spark, hadoop, odi, pentaho, còn cả mấy con tool báo cáo nữa. Học hết bằng này tool chắc ngỏm :<

@MaiDE-uq7ws9 күн бұрын

đúng rồi em, vậy nên đừng học hết một lúc, học hết một cách từ từ thì sẽ ok hơn. Ban đầu em chỉ cần học mấy cái chị nói trong video là được, mà cố gắng học bản chất và hiểu gốc rễ vấn đề, đừng học nhanh học lướt để cho xong, thì sau đó, em sẽ thấy mấy cái tool khác, cơ chế giống y nhau à, học dễ lắm !

@hungletri355010 күн бұрын

Còn gì cần chú ý khi từ môi trg lab ra môi trg đi làm khi dùng spark ko chị ?

@MaiDE-uq7ws9 күн бұрын

còn nhiều lắm mà để hôm nào chị làm 1 video nữa nhé 😁

@giabinhhoang235110 күн бұрын

ODI HOẶC PENTAHO thì dành cho bigdata hay data thường vậy chị

@MaiDE-uq7ws9 күн бұрын

chị thấy hai công cụ này có thể sử dụng cho bigdata, nhưng không linh hoạt và hiệu suất như spark. Nếu dự án nào mà dữ liệu không quá phức tạp, cần tính toán nhanh thì dùng hai công cụ này cũng được, giao diện cũng dễ dùng hơn spark.

@hoahoa858810 күн бұрын

Em cảm ơn chị Mai nhiều ạ , những video của chị rất hay ạ . Chúc chị buổi tối vui vẻ và ra thêm nhiều video hay ạ😁😁😁

@MaiDE-uq7ws9 күн бұрын

Cám ơn em nhiều, mong rằng em sẽ luôn thích những video của chị 🥰

@the_real_dec1mo10 күн бұрын

Hay và dễ hiểu quá chị ơi 🧩🧩

@MaiDE-uq7ws9 күн бұрын

cám ơn em, luôn ủng hộ chị đó nha

@quynhchu535410 күн бұрын

ôii tuyệt quá chị Mai ơi, em đang tim hiểu về cái này lun ạ

@MaiDE-uq7ws9 күн бұрын

vậy thì hay quá rồi, cám ơn em đã cmt cho chị biết suy nghĩ của mình nhé 🥰

@sonlh8110 күн бұрын

Tuyệt vời, đang đọc về cái này 🎉

@MaiDE-uq7ws9 күн бұрын

cám ơn bạn 😊

@nguyenquoctoan402410 күн бұрын

E chạy 1+1 thì 2 đúng r mà chạy rdd.count() như chị lại ra lỗi này mong chị giúp em vợi ạ (Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe)

@MaiDE-uq7ws9 күн бұрын

em vào kênh của chị, xem video fixed bug cho Bạch Phúc nhé, nếu vẫn lỗi thì chụp màn hình gửi cho chị để chị xem cho

@nguyenquoctoan40249 күн бұрын

@@MaiDE-uq7ws em làm theo và vẫn không được ạ Py4JJavaError Traceback (most recent call last) Cell In[16], line 1 ----> 1 orders_rdd.count() File c:\Users\Admin\anaconda3\Lib\site-packages\pyspark dd.py:2316, in RDD.count(self) 2295 def count(self) -> int: 2296 """ 2297 Return the number of elements in this RDD. 2298 (...) 2314 3 2315 """ -> 2316 return self.mapPartitions(lambda i: [sum(1 for _ in i)]).sum() File c:\Users\Admin\anaconda3\Lib\site-packages\pyspark dd.py:2291, in RDD.sum(self) 2270 def sum(self: "RDD[NumberOrArray]") -> "NumberOrArray": 2271 """ 2272 Add up the elements in this RDD. 2273 (...) 2289 6.0 2290 """ -> 2291 return self.mapPartitions(lambda x: [sum(x)]).fold( # type: ignore[return-value] 2292 0, operator.add ... at java.base/java.lang.Thread.run(Thread.java:1570) Caused by: java.io.IOException: Input path does not exist: file:/C:/Users/Admin/Desktop/Altair/CREATE_PRACTICAL_EX/Dataset/World_Billionaire_2024 at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:278) ... 32 more

@nguyenquoctoan40249 күн бұрын

@@MaiDE-uq7ws em run dc r a, em cam on Chi nhieu

@MaiDE-uq7ws8 күн бұрын

@@nguyenquoctoan4024 thế cuối cùng là bị lỗi gì thế em và em đã fix thế nào ? Em có thể chia sẻ được không để các bạn khác có mắc lỗi này còn biết cách fix ý :)

@nguyenquoctoan40248 күн бұрын

@@MaiDE-uq7ws em dùng python 12 ạ em đổi qua 10 thì chạy oke r ạ

@sonlh8110 күн бұрын

Cho mình hỏi có thể đánh index trong spark ko, mình tìm hiểu qua thì nó nói là có nhưng có vẻ chưa rõ ràng lắm

@MaiDE-uq7ws9 күн бұрын

Thực ra nếu là đánh index như cách truyền thống của sql thì không, nhưng spark có hai cách khác đó là Bucketing và Z-Order cũng giúp cải thiện hiệu suất và ý tưởng cũng tương đương như việc dánh index, bạn tham khảo thêm nhé

@sonlh815 күн бұрын

@@MaiDE-uq7ws Mình đã hiểu Bucketing rồi, cám ơn bạn, Z-Order chắc tìm hiểu sau vậy. Thằng spark này có cái nào để Schedule các job cần thực hiện giống như Cron job trên hangFire ko, hay phải dùng Air Flow hả bạn

@flynn310311 күн бұрын

chị ví dụ thêm về những dữ liệu không thể chia nhỏ được đi ạ, em chưa hình dung lắm

@MaiDE-uq7ws9 күн бұрын

ok, để hôm nào chị ra 1 video chỉ về chủ đề này thôi nhé, khi đó chắc em sẽ dễ hình dung hơn

@ducanh_ng835711 күн бұрын

Chị ơi cho em hỏi khi mình dùng pyspark trên laptop cá nhân thì mình không cần quan tâm đến việc cấu hình các worker node mà chỉ cần quan tâm đến việc cấu hình sparksession để dùng các tài nguyên trong máy đúng không ạ?

@MaiDE-uq7ws9 күн бұрын

đúng rồi em, khi dùng ở máy cá nhân thì chúng ta chỉ có duy nhất 1 node vừa làm driver vừa làm worker luôn, vậy nên việc tính toán song song là dựa duy nhất vào số lượng core của máy.

@phucnguyencong11311 күн бұрын

Về công thức thứ nhất, chị có bảo là chi phí mở 1 file là 4 Mb, vậy tại sao trên tử số lại không có + 4 ạ?

@MaiDE-uq7ws9 күн бұрын

bởi vì công thức 1 nó chỉ là mở 1 file lớn thôi nên 4M so với kích thước của file đó thì không đáng kể, còn công thức thứ 2 là mình mở nhiều file nhỏ, nếu mở 100 file thì chi phí = 400M rồi, nó lớn nên cần tính vào.

@TanLuke200311 күн бұрын

cho em hỏi Application master chỉ tạo trên duy nhất 1 Worker Node thôi hay sao a. Hay là mỗi Worker Node đều có một Application master riêng cho nó để tính toán mỗi worker node đó cần bao Ram hay Core ah

@MaiDE-uq7ws9 күн бұрын

đúng rồi, application master (AM) chỉ tạo trên duy nhất 1 worker node thôi, và nó sẽ được dùng để tính toán tài nguyên cho tất cả các worker node trong hệ thống, spark không tạo AM riêng cho mỗi worker node.

@nguyenquoctoan402412 күн бұрын

Em cảm ơn chị nhiều ạ chị nào rảnh mentor cho em mấy cái với ạ, em cũng mới bắt đầu vào nghề này ạ

@MaiDE-uq7ws9 күн бұрын

Chịu khó xem video của chị và học trên đó nhé, chứ mentor riêng thì chị sợ là hơi khó 😬

@trantuanngoc12 күн бұрын

cảm ơn chi sẻ của chị (y)

@MaiDE-uq7ws9 күн бұрын

cám ơn em đã xem những chia sẻ của chị 🥰

@ngoctamnguyen859112 күн бұрын

Chào chị, em mới theo dõi kênh của chị và thấy kênh rất là hay.

@MaiDE-uq7ws9 күн бұрын

cám ơn em nhiều nhé, cám ơn em đã nói cho chị biết suy nghĩ của mình khi xem kênh ❤

@sonlh8112 күн бұрын

Đọc rất hay và ko buồn ngủ 😂

@MaiDE-uq7ws9 күн бұрын

cám ơn bạn nhiều 😂

@sonlh8112 күн бұрын

Rất hay, cám ơn bạn 😊

@MaiDE-uq7ws9 күн бұрын

cám ơn bạn nhiều vì đã để lại cmt động viên mình mỗi khi xem video 🥰

@thang428012 күн бұрын

Chị ơi, chị có thể ra video cách setup cụm spark trên nhiều node (tối thiểu 2-3 node) được không ạ ?

@MaiDE-uq7ws9 күн бұрын

chị note yêu cầu nhé, một thời điểm thích hợp chị sẽ ra video về chủ đề này :)

@hoannguyenvan994713 күн бұрын

Chị hướng dẫn hay quá, tiếc là k có dataset để em thực hành. Chị upload dataset lên được k ạ?

@MaiDE-uq7ws12 күн бұрын

Chào em, em gửi mail cho chị rồi chị gửi file dữ liệu cho mà thực hành nhé

@hoannguyenvan994713 күн бұрын

Chị ơi, sự khác nhau giữa 2 khái niệm distributed system và cluster là gì vậy ạ?

@MaiDE-uq7ws12 күн бұрын

Cluster nó chỉ đơn giản là tập hợp của nhiều máy tính thôi, còn hệ thống phân tán là một hệ thống được thiết kế để có thể tính toán song song. Em hiểu đơn giản bước đầu như vậy là được.

@sonlh8114 күн бұрын

Mình chuyển hướng sang làm DE, vốn là chỉ đọc thôi, nhưng sáng nay đọc bài của bạn về tài liệu DE free, tự nhiên cảm thấy hơi xáu hổ vì đúng là nợ bạn 1 comment. không nhũng bạn mà mình nợ những người có tám lòng đóng góp cho cộng đông như bạn, một lời khích lê. Dù có thể chả là gì nhưng mình vẫn comment. Và mong kiến thức của bạn sẽ được mọi người chia sẻ và giúp đỡ được nhiều người hơn nữa

@MaiDE-uq7ws12 күн бұрын

Cám ơn cmt của bạn. Chia sẻ thật là để làm ra 1 video techniqe tốn rất nhiều thời gian và công sức, dù biết trước khi làm là sẽ không có nhiều người xem như là những video về giải trí hay những chủ đề non-tech, nhưng mình vẫn làm vì mình tin là ai thật sự cần thì sẽ thấy video của mình hay và hữu ích, còn những ai không cần thì không phải là đối tượng mình hướng đến. Vậy nên những cmt, like của mọi người khi xem video sẽ truyền động lực rất nhiều cho mình. Và thật sự, khi làm video, mình cũng chỉ mong được nhìn thấy những tương tác thật từ người xem để có thể chia sẻ nhiều kiến thức hơn. Một lần nữa, cám ơn bạn rất nhiều vì đã bỏ thời gian ra để cmt, nó rất ý nghĩa với mình.

@lapnghiepshopee14 күн бұрын

vậy là DE cover luôn DA nhỉ?

@MaiDE-uq7ws12 күн бұрын

cái này tùy công ty bạn nhé, nếu công ty có đủ việc cho cả hai vị trí thì DE không cần phải cover việc của DA :)

@pyke964915 күн бұрын

Sao bước staging lại xoá luôn v chị? Vậy làm sao để mình audit dữ liệu nếu phần raw mình đã xoá ở bảng staging v chị?

@MaiDE-uq7ws12 күн бұрын

Lý do xóa dữ liệu ở staging là để giải phóng không gian lưu trữ, tối ưu hóa hiệu suất vì nếu chúng ta giữ dữ liệu không cần thiết trong staging sẽ làm chậm quá trình truy vấn và xử lý trong các bước tiếp theo của ETL, ngoài ra việc xóa dữ liệu trong staging giúp duy trì một quy trình làm việc rõ ràng, giảm rủi ro về việc quản lý dữ liệu không đồng nhất, giúp chúng ta dễ dàng theo dõi quá trình ELT. Khi mình xóa dữ liệu trong staging, không phải là mình xóa dữ liệu raw, dữ liệu trong staging là dữ liệu được xử lý một phần để sẵn sàng cho quá trình biến đổi (ví dụ, dữ liệu raw là các file csv - không có cấu trúc, thì dữ liệu ở staging đã được chuyển sang dạng bảng - có cấu trúc). Hy vọng câu trả lời này có thể giúp em clear hơn một chút về ETL.

@grabtv421115 күн бұрын

Deploy on-premise spark ổn ko Mai. Có video chưa nhỉ

Mai DE

Client mode vs Cluster mode trong Spark

Kiến trúc của Spark

Hadoop Architecture

Spark chia dữ liệu thành nhiều phần như thế nào ? (Câu hỏi phỏng vấn technique)

Phân biệt cluster, worker node, driver node, executor, partition trong Spark

Spark UI - Cache - Tối ưu hóa trong Spark - Phần 2

Miễn phí tài liệu học Data Engineering cho người mới bắt đầu

Cache vs Persist

Xử lý dữ liệu trùng lặp trong Spark

Xử lý dữ liệu ngày tháng trong Spark

Nested schema trong Spark

Bài tập thực hành DataFrame - phần 3

7 cách tạo DataFrame trong Spark

Spark Read Mode - 3 cách đọc file trong Spark nên biết

Sử dụng InferSchema nguy hiểm như thế nào khi đọc dữ liệu trong Spark

Spark Executor - Tối ưu hóa trong Spark - Phần 1

Bài tập thực hành DataFrame - Phần 2

Spark SQL - managed table vs external table

Spark read

Bài tập thực hành DataFrame - phần 1

Phân biệt RDD vs DF vs Spark SQL

Cache - giúp chúng ta đẩy nhanh tốc độ xử lý dữ liệu như thế nào trong Spark?

Repartition vs Coalesce

Broadcast join - một kỹ thuật join vô cùng quan trọng trong xử lý dữ liệu với Spark

reduce vs reducebykey

Spark UI

Hướng dẫn cài đặt SPARK trên Windows

Hai loại transformation nên biết và nên phân biệt được chúng - narrow & wide transformations

Fixed bug cho Bạch Phúc (bug không chạy được RDD trên máy local)

Пікірлер