How did I build an AI recommendation for Japanese Adult Actresses.

Xin chào mọi người ,
Vừa rồi thì có một bạn mạnh thường quân đã donate, trả tiền để tui giúp bạn đó xây dựng một hệ thống gợi ý diễn viên Nhật Bản theo đúng gout. Sẵn nó vui vui nên tui quay clip chia sẻ quá trình.
Lưu ý: hệ thống xây dựng bởi Senior Data Engineer nhằm mục đích vui vẻ là chính. Không quan trọng và Accuracy, Confusion matrix, f-score gì gì nha.
Thuật nữa được sử dụng
KMeans, Silhouette score, Calinski Harabasz score.
Link Notebook: colab.research.google.com/dri...
Fanpage: dataguystory
🐻 a b o u t 🐻
Mình tốt nghiệp thạc sĩ tại đại học quốc gia Singapore chuyên ngành Data Science (Khoa học dữ liệu). Mình từng làm Data Scientist được khoảng 2.5 năm tại một tập đoàn tự động hóa lớn nhất nhì thế giới. Hiện tại mình đang làm Senior Data Engineer ở Grab Singapore với 5 năm kinh nghiệm. Hy vọng những video của mình sẽ giúp đỡ các bạn phần nào đó bước trên con đường Data này.
Songs: Tokyo Music Walker - Summer Time
Creative Commons - Attribution 3.0 Unported - CC BY 3.0
Music promoted by Audio Library • Summertime - Tokyo Mus...

Пікірлер: 92

  • @data-dynamo-guy
    @data-dynamo-guy2 жыл бұрын

    Thanks anh, video rất hay.

  • @oanquocnhan6604
    @oanquocnhan66043 жыл бұрын

    Hi vọng anh ra nhiều video như thế này hơn nữa ạ, tìm hiểu và phân tích các dữ liệu bài toán đang nổi ấy anh.

  • @phuongnamphan9368
    @phuongnamphan93683 жыл бұрын

    Nhờ anh, em hiểu hơn về ngành này, Tks anh nhiều 🤩

  • @buingoc5080
    @buingoc50803 жыл бұрын

    Xem hết các video của anh :v Hi vọng anh ra nhiều video về Data Engineer nữa ạ ^^

  • @PhucDoprofile
    @PhucDoprofile3 жыл бұрын

    Anh phổ biến nghề data và ứng dụng thực tế như thế này nữa nha. Cái nào dân nontech học hỏi dần dần được ấy. Rất thú vị vì có người Việt làm về chủ đề này

  • @anlenguyenchi6716
    @anlenguyenchi67163 жыл бұрын

    Cảm ơn lắm anh ơi, anh ra nhiều video như vầy nữa đi anh, mặc dù bỏ công ra nhiều lém anh nhỉ :v

  • @NamNguyen-rb5fy
    @NamNguyen-rb5fy3 жыл бұрын

    Ờ mây zing, gút chóp anh

  • @huyle-ve8qi
    @huyle-ve8qi3 жыл бұрын

    mong a ra nhiều video demo kiểu dạng này hơn ạ

  • @hoangsatfe
    @hoangsatfe11 ай бұрын

    love

  • @thanhtai5641
    @thanhtai56413 жыл бұрын

    series tấu hài quá, mong hai anh colab với nhau để ra nhiều video bổ ích như này nữa. :v

  • @hermes6593
    @hermes65933 жыл бұрын

    Chào anh, em theo dõi anh từ hồi còn viết blog. Các bài viết rất hữu ích cho người mới bắt đầu như em, hiện tại em đang theo học DS, nếu được anh có thể làm 1 vid giới thiệu (hoặc làm thử) những công việc mà 1 DS thường làm được ko ạ ?( Càng thực tế càng tốt) Em cảm ơn, mong anh ra nhiều vid hơn nữa

  • @oanquocnhan6604
    @oanquocnhan66043 жыл бұрын

    EM sẽ theo anh miết luôn ! P/s: Anh mà edit theo kiểu anh "Mạnh thường quân " kìa là pơ pẹc luôn

  • @anhbui3759
    @anhbui37593 жыл бұрын

    From Toi di code dao with love

  • @cunguyen2603
    @cunguyen26033 жыл бұрын

    ra tiếp video nữa đi anh ơi

  • @linh-phgvu
    @linh-phgvu3 жыл бұрын

    Chắc phải đề xuất KZread add nút react haha =))

  • @ducle1026
    @ducle10263 жыл бұрын

    cái này là bị code dạo hướng trend nè :D

  • @hungnguyenmanh7737
    @hungnguyenmanh77373 жыл бұрын

    ai đang muốn cày cuốc theo hướng back-end thì nên theo dõi kênh này :D Vì để biết mình đang lưu trữ những thông tin gì và như thế nào :D

  • @taiuc2923
    @taiuc2923 Жыл бұрын

    Làm thêm đi anh ơi

  • @DataGuyStory
    @DataGuyStory3 жыл бұрын

    Mạnh thường quân là ai thì ai cũng biết rồi đó. Bạn nào muốn data qua bên kia xin nghen =]] Phần 1: kzread.info/dash/bejne/oIl-xdeeYce3lMY.html

  • @hungnguyenmanh7737

    @hungnguyenmanh7737

    3 жыл бұрын

    data quá xịn luôn :D. Nhưng mà làm như thế nào để tạo được data như thế nhỉ? Data Guy làm 1 vlog hướng dẫn đi :D

  • @Alleluia-alleluia

    @Alleluia-alleluia

    3 жыл бұрын

    sao giỏi quá đáng vậy :)))

  • @ucphucmai7099

    @ucphucmai7099

    3 жыл бұрын

    anh ơi cái đoạn tìm kiếm hình ảnh đó làm sao để nó ra vậy anh? em gõ ![Tên] thì làm sao nữa cho nó ra đường link anh?

  • @Theworldofplay3
    @Theworldofplay32 жыл бұрын

    Anh làm video giải thích về thuật toán ALS đc ko ạ

  • @Erictommm-high
    @Erictommm-high3 жыл бұрын

    anh có thể làm vid phân biệt giữa software engineer , data engineer , data scientist và mối quan hệ của họ vs nhau không anh ?

  • @entertainmentufm3559
    @entertainmentufm35593 жыл бұрын

    ước đc làm editor cho anh cảnh, và đc anh chỉ thêm về học phân tích ạ!

  • @TimberJames
    @TimberJames3 жыл бұрын

    Bạn có thể hướng dẫn mình scatter plot điểm trung tâm trong trường hợp điểm trung tâm không trùng với dữ liệu được không. Có thể là điểm trung tâm gần nhất (From sklearn.metrics import pairwise_distances_argmin_min)

  • @thanhtupham4726
    @thanhtupham47263 жыл бұрын

    "Điểm cùi chỏ" thuật ngữ bá đạo bà bán gạo :V

  • @dopered5821
    @dopered5821 Жыл бұрын

    Xem cách đây vài tháng giờ quay lại vì làm đồ án đề tài tương tự trong video =))))) Chỉ là khuyến nghị cái khác :v

  • @nguoilacquan5707
    @nguoilacquan57073 жыл бұрын

    Hi anh, em theo doi kenh anh tu luc moi bat dau. Em dang lam backend thi co the chuyen huong sang data enginering duoc khong anh?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Ở nước ngoài thì hơi khó, nhưng ở Việt Nam hiện tại thì xu hướng là mọi người thường từ BE sang DE đó bạn. Do chưa có nơi nào đào tạo DE, toàn đào tạo AI/ML ko à

  • @longphanthanh2432
    @longphanthanh24323 жыл бұрын

    Em đang học môn Data Mining, nhưng gặp nhiều vấn đề về sử dụng Jupyter Notebook để code Python. Rất mong anh sẽ ra một video hướng dẫn các lệnh cơ bản cũng như fix một số lỗi thường gặp được không ạ?

  • @tiendang9371
    @tiendang93712 жыл бұрын

    Anh Cảnh cho em vài nguồn để tự học Python với ạ, bước khởi đầu mình bắt đầu với python là thế nào ạ?

  • @hoangphuctran5255
    @hoangphuctran52553 жыл бұрын

    Cảm ơn anh cảnh, mong anh có thể có 1 video dành cho dân Non-Tech muốn tự học python (hay bất kỳ ngôn ngữ nào phổ biến và phù hợp) để phát triển thêm về hướng Data analytics

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Để mình xem thử nhé. Kiếm project hay để làm DA khó lắm

  • @hoangphuctran5255

    @hoangphuctran5255

    3 жыл бұрын

    @@DataGuyStory Dạ vâng, em bên Marketing nhưng muốn nâng cao kỹ năng bằng cách học thêm về DA, vì là non-tech nên em tự học khá vất vả :(. Nhưng bù lại hiện nay quyết tâm hơn bao giờ hết. Mong anh nhận thêm những chia sẻ và hỗ trợ của anh trong tương lai

  • @phanle6019
    @phanle60193 жыл бұрын

    hay quá anh ạ. mà tôi nhắc nhẹ anh em là đang trong tháng NNN đó nhé, mong anh em bỏ tay ra khỏi quần.

  • @nghilam5685
    @nghilam56853 жыл бұрын

    Mới bên mạnh thường quân qua :v

  • @duyduy1707
    @duyduy17073 жыл бұрын

    Em nam nay lop 7 ma bat dau hoc python de lam AI roi (gioi hon may ban trang lua) neu em hoc 1 nam thi co viec lam kh anh. Em thay anh code cung de du kh hieu lam mong anh giang ro hon de giup thang lop 7 nhu em

  • @tqttqt5807
    @tqttqt58072 жыл бұрын

    a cho em xin file JSON để thực hành được không ạ

  • @thinhhuu786
    @thinhhuu7863 жыл бұрын

    anh cảnh ơi tại phần 1 cái đoạn lấy link ảnh thì link đó lấy ở đâu vậy anh

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Copy ảnh ở Google rồi xài markdown nhé trong collab nhé em

  • @TiMaclife
    @TiMaclife3 жыл бұрын

    Anh ơi, anh có thể ra nhiều video như thế này được không ạ. Nhưng không phải thiên về bên JAV nha : Xem video của anh xong em học được khá là nhiều thứ hay ho và bổ ích luôn á. Hiện em đang theo học ngành DS ạ.

  • @trantri1208

    @trantri1208

    2 жыл бұрын

    bạn học ở đâu á

  • @TiMaclife

    @TiMaclife

    2 жыл бұрын

    @@trantri1208 em đang học ở trường Đại học Công nghiệp TPHCM chuyên ngành DataScience

  • @trantri1208

    @trantri1208

    2 жыл бұрын

    @@TiMaclife em năm nay lớp 12 chị cho em xin tý review về ngành Khoa học dữ liệu trường chị học được hông ạ

  • @TiMaclife

    @TiMaclife

    2 жыл бұрын

    @@trantri1208 tuyệt vời luôn bạn nhé. Welcome bạn, chủ nhiệm khoa mình còn mời anh Cảnh đây về tư vấn hướng dẫn bên mình qua zoom luôn ấy.

  • @JoeNguyen9x
    @JoeNguyen9x3 жыл бұрын

    Anh Cảnh cho em hỏi, em đang theo Machine learning, nên xài WIn ubuntu hay theo macOS/Linux?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    À, anh xài mac với ubuntu thôi nhé

  • @JoeNguyen9x

    @JoeNguyen9x

    3 жыл бұрын

    Cám ơn anh nhiều, sau này có dịp hợp tác cùng sẽ vinh dự cho em lắm. A ra clip là em sẽ theo doiz luôn

  • @phamduy2251
    @phamduy22513 жыл бұрын

    anh đang xài bàn phím gì vậy anh, nhìn đẹp quá

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Leopold với mấy cái keycap nha bạn

  • @missyou280890
    @missyou2808902 жыл бұрын

    Cho e xin dataset trong video được không a

  • @B-NGUYENDUYTIEN
    @B-NGUYENDUYTIEN2 жыл бұрын

    Em chào anh. Anh cho em hỏi chỗ blood_type(A, B, AB, O) tại sao mình không dùng One-Hot Encoding? Theo em nó là nominal column( không so sánh được) nên mình nên dùng One-Hot Encoding để máy không hiểu nhầm là nhóm máu A > máu O,... Còn cách anh dùng thì em nghĩ là dùng cho ordinal column( ví dụ: size( L>M>S) vì khi đó các giá trị này có mối quan hệ, so sánh được với nhau. Em chỉ là beginner thôi và đây là những kiến thức em tự học được nên nếu có sai thì nhờ các anh/chị chỉ bảo. Em cảm ơn và rất mong chờ các hồi đáp.

  • @DataGuyStory

    @DataGuyStory

    2 жыл бұрын

    À, anh có trả lời câu hỏi này của 1 bạn khác rồi á. Anh copy sang nha. Trong trường hợp dataset này blood_type chỉ có 4 giá trị. Việc sử dụng one hot encoding nó không thay đổi kết quả gì so với label encoding như trong video. Hơn nữa one hot encoding sẽ tạo ra thêm những column khác cho dataset, như vậy khi bạn deploy model ở đây là hàm recommend bạn sẽ phải thêm một bước nữa để convert blood_type sang one hot encoding rồi mới fit vào model được. Gây thêm tốn kém chi phí (computing expensive). Mình chỉ sử dụng one hot encoding khi mà label encoding ảnh hưởng đến model. Ví dụ như quá nhiều category, label encoding sẽ là dãy số tăng dần từ 1 đến n. Model có thể nghĩ rằng ở column này data phải có thứ tự nhất định. Còn không việc one hot encoding sẽ gây tốn kém chi phi vô ích, nhất là khi bạn xây dựng model lên production. Side note: cái dataset này chỉ for fun, mục đích là giới thiệu AI đến với các bạn chưa biết gì. Mình không muốn giải thích quá nhiều thuật ngữ phức tạp trong đây.

  • @B-NGUYENDUYTIEN

    @B-NGUYENDUYTIEN

    2 жыл бұрын

    @@DataGuyStory Sorry anh vì đã em hỏi 1 câu đã được 1 bạn khác hỏi rồi. Em cảm ơn anh vì đã đọc và trả lời lại câu hỏi này =))

  • @tamvuong7511
    @tamvuong75113 жыл бұрын

    25:03 cho em hỏi tại sao phải tạo ra df1 và df2 riêng sau đó merge lại theo id mà ko tạo thẳng 1 df có tất cả các field rồi dropna?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    À, cuối cùng cũng có người hỏi câu này. Hàm dropna() nó sẽ drop theo row. Tức là dòng nào có missing value nó sẽ drop ngay dòng đó. Nên nếu em dropna() trực tiếp từ actress, dataset sẽ còn 1k mấy record à, khác với data mà mình dùng để train model. Trong clip này thật ra chỉ cần thêm "id, name, japanName" rồi dropna() thì kết quả vẫn đúng. Nhưng anh không muốn tạo ra thói quen xấu cho mấy bạn mới bắt đầu làm Data Science. Nên tạo ra 2 cái df1, df2 và dựa theo id thì nó sẽ chính xác hơn, sau này có làm Data Science thì sẽ tốt hơn đó em.

  • @tamvuong7511

    @tamvuong7511

    3 жыл бұрын

    @@DataGuyStory Thank you anh.

  • @maithanh6807
    @maithanh68073 жыл бұрын

    cho hỏi bạn. sài... màn hình hiệu gì vậy, trước màn hình có cái màn che tia Blue ko? cảm ơn

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Mình xài Viewsonic 32 inches 2k nha. Ko có che blue, kính mình che rồi

  • @maithanh6807

    @maithanh6807

    3 жыл бұрын

    @@DataGuyStory cảm ơn, chủ kênh nhiet tình quả, tưởng video lâu rồi sẽ khó dc reply :D. để mốt đi cắt kinh có chắn tia blue luôn

  • @XinhLe
    @XinhLe3 жыл бұрын

    giải quyết rất tốt chứng mất tập trung khi học

  • @zimusic5226
    @zimusic52262 жыл бұрын

    cho mình xin file data.json của mạnh thường quân ạ

  • @uctranminh2411
    @uctranminh24113 жыл бұрын

    anh ơi 2 màn của anh bao nhiêu inch thế ạ?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Màn chính 32 inches, màn phụ 28 inches nha 😆

  • @anhong3280
    @anhong32803 жыл бұрын

    Ai đang học Data Science ở UIT xem video này like nào :v

  • @linh-phgvu

    @linh-phgvu

    3 жыл бұрын

    Dân UIT, ko học DS nhưng theo DS nha bạn :v

  • @trantri1208

    @trantri1208

    2 жыл бұрын

    bạn review cho mình ngành này ở UIT với mình tính vào mà chưa biết học như thế nào

  • @minhtien7162
    @minhtien71623 жыл бұрын

    16:05 mình Metrics ngay trong for rồi so sánh luôn không được hả anh.

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    được em. Trong clip anh muốn vẽ đồ thì để tìm elbow cho mọi người xem. Bình thường làm 1 mình thì cứ metrics rồi so sánh

  • @phamtrunghieu9198
    @phamtrunghieu91983 жыл бұрын

    Anh Cảnh ơi, sao dataset này anh không scale dữ liệu lại nhỉ, mong anh giải thích ạ

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Good question em ơi, có 2 lý do chính mà anh không scale data ở dataset này. (đáng ra là phải scale vì đang sử dụng K-mean) 1. Vì data này làm cho vui, hướng dẫn mọi người nên anh thấy scale không cần thiết lắm, mắc công người mới xem lại bị rối. Anh có đề cập trong phần description là không quan trọng kết quả, vui là chính. 2. Anh thấy data nó cũng distributed (waist, hip, age, bust) nên không scale thì kết quả cũng không sai sót mấy. (chắc chắn là có sai nhưng sẽ không quá 15%). Cám ơn em đã hỏi nhé ^^ mãi mới có người thắc mắc :)) p/s nếu em thích scalling thì có một bài viết khi nào scale khá hay tặng em: medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e

  • @phamtrunghieu9198

    @phamtrunghieu9198

    3 жыл бұрын

    @@DataGuyStory @@ ở VN trang medium bị chặn sao ý ạ, dù sao thì em cũng cảm ơn anh nhiều ạ!!!

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    @@phamtrunghieu9198 chặn thì vào đây nhé. outline.com/gFHFYX

  • @longcao8790
    @longcao87903 жыл бұрын

    cái màn xanh xanh của anh chạy cái j đấy anh?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Chạy terminal đó bạn

  • @anhhiang1445
    @anhhiang14453 жыл бұрын

    Mọi người cho e hỏi là cài cái nào để nó hiển code mỗi khi mình code như kia ạ ?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    colab.research.google.com

  • @thanhluannguyen684
    @thanhluannguyen6843 жыл бұрын

    anh ơi anh sử dụng thuật toán nào thế?

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    KNN nha

  • @trantri1208
    @trantri12082 жыл бұрын

    Lương anh nhiêu tháng dọ

  • @04.thanhatphan75
    @04.thanhatphan753 жыл бұрын

    anh toidicodedao lâu lâu cũng đề cập đến jav đó anh :v

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Ùa. Anh không nói code dạo là mạnh thường quân đâu nhaaa

  • @DuyTran-ss4lu

    @DuyTran-ss4lu

    3 жыл бұрын

    @@DataGuyStory Hên là anh ko nói chứ ko e cũng ko biết code dạo là mạnh thường quân luôn :))

  • @markhuynhno1759
    @markhuynhno17593 жыл бұрын

    không nhắc chắc bỏ CV thật :)

  • @quangtrungang523
    @quangtrungang5233 жыл бұрын

    data data plzzz

  • @tranbuuhiep5197

    @tranbuuhiep5197

    3 жыл бұрын

    github.com/conanak99/jav-py/blob/main/acctress.json

  • @nhatnamnguyen3549
    @nhatnamnguyen35493 жыл бұрын

    blood_type phải one hot encoding chứ ta

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Trong trường hợp dataset này blood_type chỉ có 4 giá trị. Việc sử dụng one hot encoding nó không thay đổi kết quả gì so với label encoding như trong video. Hơn nữa one hot encoding sẽ tạo ra thêm những column khác cho dataset, như vậy khi bạn deploy model ở đây là hàm recommend bạn sẽ phải thêm một bước nữa để convert blood_type sang one hot encoding rồi mới fit vào model được. Gây thêm tốn kém chi phí (computing expensive). Mình chỉ sử dụng one hot encoding khi mà label encoding ảnh hưởng đến model. Ví dụ như quá nhiều category, label encoding sẽ là dãy số tăng dần từ 1 đến n. Model có thể nghĩ rằng ở column này data phải có thứ tự nhất định. Còn không việc one hot encoding sẽ gây tốn kém chi phi vô ích, nhất là khi bạn xây dựng model lên production. Side note: cái dataset này chỉ for fun, mục đích là giới thiệu AI đến với các bạn chưa biết gì. Mình không muốn giải thích quá nhiều thuật ngữ phức tạp trong đây.

  • @nhatnamnguyen3549

    @nhatnamnguyen3549

    3 жыл бұрын

    @@DataGuyStory :)) em bl cho vui thôi a

  • @DataGuyStory

    @DataGuyStory

    3 жыл бұрын

    Haha, cám ơn bạn đã "up" video nhé :)))))

  • @congnhaduong9047

    @congnhaduong9047

    3 жыл бұрын

    @@DataGuyStory cảm ơn a đã rep comment bạn em