データサイエンス塾!!

データサイエンス塾!!

データ分析や人工知能(AI)開発の基本を無料で学べるチャンネルです。実践重視で、ExcelやPythonによる統計学・機械学習などを扱います。
【キーワード】データサイエンティスト、データアナリティクス

Пікірлер

  • @ohagi596
    @ohagi5968 күн бұрын

    大変ためになる動画、ありがとうございます!!! 自分用メモ ・箱ひげ図 37:26 ・相関係数 49:46

  • @narfidort
    @narfidort9 күн бұрын

    どの始まり方、どの終わり方でも文が成立するような巡回する文字列を考えれば、 縦横に一文字ずつずらしながら無限に大きなクロスワードが作れる気がします。 そんな文字列が存在するかは分かりませんが... 基本的に繰り返し接続が可能な日本語の格助詞を含める必要がありますから、 極端な例ですが、長さ1の巡回文字列(の)を考えれば、奇数x奇数のクロスワードが構成できます。 野の野の....の野を並べて、、、 ののののののの ののののののの ののののののの ののののののの ののののののの とかですね... (の,や,ま)でもやってみると 野山 山の 魔の山(なんだそれ)と、 開始は可能そうです。 繰り返しは、 野山の山の.. 山の山の... 魔の山の山の... 苦しいですが可能そうですね。 終了は「山の」で終わるとダメそうですから結局上手くいきません。

  • @user-dn7sz9ql6n
    @user-dn7sz9ql6n17 күн бұрын

    ありがてえ。。

  • @kkeke-t4o
    @kkeke-t4o21 күн бұрын

    相関分析について質問があります。データの量が数百個ではなく数万個単位の時散布図がかなり見にくくなってしまうと思います。解決方法はありますか?あれば教えていただけると嬉しいです。それとも相関なしということで処理することができますか?

  • @nishimaki
    @nishimaki20 күн бұрын

    データが多いと散布図の1つ1つの点が見辛くなってしまうことはあると思います。 ただ、相関分析は2つのデータの関連性を見るものですので、グラフの全体傾向が掴めるのであればそこまで問題ではないかなと考えます。 また相関のあるなしはグラフの見た目からだけでなく、相関係数の数値から解釈できます。

  • @kkeke-t4o
    @kkeke-t4o16 күн бұрын

    @@nishimaki ご丁寧に返信ありがとうございます!

  • @Mekon_
    @Mekon_24 күн бұрын

    分析コンペ始めてちょうど知りたかった内容なので助かりました。

  • @anoah4237
    @anoah423727 күн бұрын

    ヒートマップを作製した際にきれいな正方形ではなく、y軸の社会、国語の部分が見切れてしまいます。 見切れることにより国語行と社会行の相関係数も見切れてしまいます。 何か修正方法ありますでしょうか?

  • @nishimaki
    @nishimaki25 күн бұрын

    下記のようにAspectパラメータを定義するか、 sns.heatmap(data, aspect="auto") もしくは下記のように図のサイズを調整することで見切れないようになりませんでしょうか? plt.figure(figsize=(12, 8)) sns.heatmap(data)

  • @user-qn4bg4px7t
    @user-qn4bg4px7t29 күн бұрын

    わかりやすいです!授業中アジャイルが分からなすぎてええってなってたんですが理解出来ました。 できればアジャイルソフトウェアの開発手法についても教えていただきたいです。(;;)

  • @nishimaki
    @nishimaki25 күн бұрын

    ありがとうございます、お役に立てたようで何よりです! アジャイルソフトウェアの開発手法について、ネタ帳に入れさせていただきます!

  • @user-je4oc4tt7o
    @user-je4oc4tt7o29 күн бұрын

    pulpの使い方がそもそもわからんかったからなんも理解できなかった

  • @user-je4oc4tt7o
    @user-je4oc4tt7o29 күн бұрын

    pulpの使い方がそもそもわからんかったからなんも理解できなかった

  • @user-nj1ko5rm6d
    @user-nj1ko5rm6dАй бұрын

    Pythonと統計を学ぼうと思っていたので参考にさせていただきます😊

  • @nishimaki
    @nishimaki28 күн бұрын

    お役に立てましたら幸いです!

  • @user-ws5hm9lg2r
    @user-ws5hm9lg2rАй бұрын

    待ってました。 久しぶりのUPありがとうございます。

  • @nishimaki
    @nishimaki28 күн бұрын

    こちらこそ嬉しいコメントありがとうございます!

  • @nishimaki
    @nishimakiАй бұрын

    13:26で「説明変数 ※別名:従属変数」とテロップが出ていますが、従属変数ではなく「独立変数」の誤りです。失礼いたしました。

  • @mrgreenwolf5348
    @mrgreenwolf5348Ай бұрын

    リスト、タプル、辞書あたりがよく分かってなかったのがスッキリしました。 ありがとうございます。

  • @nishimaki
    @nishimaki28 күн бұрын

    お役に立てましたら幸いです!

  • @user-ug1yl7do4m
    @user-ug1yl7do4mАй бұрын

    クソほどわかりやすいまじで10分くらい悩んでたのに一瞬でわかった!!

  • @user-sx2ys6hf6o
    @user-sx2ys6hf6oАй бұрын

    for f in glob.glob("image/*/*/*.jpg"): img_data = tf.io.read_file(f) img_data = tf.io.decode_jpeg(img_data) img_data = tf.image.resize(img_data,[100,100]) if f.split("/")[1] == "train": X_train.append(img_data) Y_train.append(int(f.split("/")[2].split("_")[0])) elif f.split("/")[1] == "test": X_test.append(img_data) Y_test.append(int(f.split("/")[2].split("_")[0])) windows使ってる人は"/"を"\\"にしてくださいじゃないとindex eroor でます。 for f in glob.glob("image/*/*/*.jpg"): img_data = tf.io.read_file(f) img_data = tf.io.decode_jpeg(img_data) img_data = tf.image.resize(img_data,[100,100]) if f.split("\\")[1] == "train": X_train.append(img_data) Y_train.append(int(f.split("\\")[2].split("_")[0])) elif f.split("\\")[1] == "test": X_test.append(img_data) Y_test.append(int(f.split("\\")[2].split("_")[0])) ↑こんな感じに

  • @user-im3jj7kn9q
    @user-im3jj7kn9qАй бұрын

    1つの目的変数に対して7つの説明変数を用いてやってみたのですが、FもP値も#NUM!になってしまいます。 どうしてでしょうか?

  • @nishimaki
    @nishimakiАй бұрын

    申し訳ございませんがその情報だけですと原因はなんとも言えず、データやご使用の関数を一部でも貼っていただければ何か分かるかもしれません。

  • @rerupmo5477
    @rerupmo5477Ай бұрын

    神すぎる

  • @luuin6694
    @luuin6694Ай бұрын

    研究のために思い描いたグラフが描けなくて困っていました。 統計解析の動画もこの動画も、本当にわかりやすくて助かりました。 ありがとうございます!

  • @nishimaki
    @nishimakiАй бұрын

    こちらこそご視聴ありがとうございました!

  • @user-oz2dm5iw9k
    @user-oz2dm5iw9kАй бұрын

    PCにHiragino Maru Gothic Proが入っていなかったので、ダウンロードしたのですが、"not found”と表示され、グラフ上に日本語が出ません。解決方法を教えてくださるとありがたいです。お願いします

  • @nishimaki
    @nishimakiАй бұрын

    原因は一概には言えないのですが、PCやPythonの再起動を実施されても状況は変わりませんでしょうか?

  • @Mi-sj4in
    @Mi-sj4in2 ай бұрын

    販促対策でデータ分析、テキスト分析をすることになり、勉強しています。全く不勉強な分野だったので、大変実用的な情報で大変助かりました。今後も参考にさせていただきます。感謝いたします!

  • @nishimaki
    @nishimaki2 ай бұрын

    お役に立てましたら幸いです!

  • @YukoCM
    @YukoCM2 ай бұрын

    先生こんにちは。Physonの基礎の動画に感動し、昨日に引き続き勉強させていただいております。 こんなに素晴らしい動画を無料で提供してくださりありがとうございます!! 1か所どうしてもエラーが出てくる箇所があり教えていただけないでしょうか? 先生の動画通りに打ち込んでも私の画面では2ページくらいのエラーが出てきます。。。 2. 条件ごとのデータ集計 df_enq.groupby("性別").mean() と打つと TypeError Traceback (most recent call last) File ~\anaconda3\Lib\site-packages\pandas\core\groupby\groupby.py:1874, in GroupBy._agg_py_fallback(self, how, values, ndim, alt) 1873 try: -> 1874 res_values = self.grouper.agg_series(ser, alt, preserve_dtype=True) 1875 except Exception as err: から始まり2ページくらい続き以下のメッセージで終わります TypeError: agg function failed [how->mean,dtype->object] 関係あるのかわからないのですが、 df_enq.groupbyで止めるとエラーは出ないのですが series形式出てきてしまいます。 お忙しいところ恐縮ですがアドバイス頂けると助かります。

  • @nishimaki
    @nishimaki2 ай бұрын

    こんにちは、こちらこそご視聴ありがとうございます。 PythonやPandasのバージョンによって同じコードでも挙動が異なることがあり、一概に言えない所ではあるのですが"Dataframeに数値以外のデータがある"場合のエラーが出ている可能性があります。 解決案としては df_enq.groupby("性別").mean(numeric_only=True) という形にして、数値の列だけで計算させるように指示を入れるか、 もしくは下記サイトなどをご参考にpandasのバージョンアップをすると動くようになるかもしれません。 machine-learning-skill-up.com/knowledge/pandas%E3%82%92%E6%9C%80%E6%96%B0%E7%89%88%E3%81%AB%E3%82%A2%E3%83%83%E3%83%97%E3%83%87%E3%83%BC%E3%83%88%EF%BC%9A%E6%89%8B%E9%A0%86%E3%81%A8%E6%B3%A8%E6%84%8F%E7%82%B9%E3%82%92%E8%A7%A3%E8%AA%AC

  • @YukoCM
    @YukoCM2 ай бұрын

    @@nishimaki  ご多忙の中ご教授下さり恐縮です!!ありがとうございます。 アドバイス通り(numeric_only=True)を入れたら表示されました!! バージョンアップのやり方のサイトも共有ありがとうございます。定期的にアップデートしてみます。質問しておきながらまさか答えて頂けるなんて思っていなかったので感激です! ありがとうございました。

  • @YukoCM
    @YukoCM2 ай бұрын

    先生ありがとうございます‼️ スッキリわかると謳っている入門書を読んでも全然わからず、ネットで紹介されてる他のおすすめ動画を見てもわからずどーしようかと彷徨ってたところ辿り着きました! 先生の声も素敵です♡ これからもよろしくお願いします!

  • @nishimaki
    @nishimaki2 ай бұрын

    こちらこそ嬉しいコメントありがとうございます! 今後ともよろしくお願いいたします。

  • @user-ul8pr9tv2p
    @user-ul8pr9tv2p2 ай бұрын

    動画ありがとうございます。教えていただきたいのですが、 動画後半で3変数を使って予測をしていますが、これは過去の「平均気温」「降水量」「日照時間」から未来の平均気温を予測しているという認識で良いでしょうか。 それとも「平均気温」は過去の平均気温、「降水量」は過去の降水量のみを説明変数としてそれぞれ予測しているのでしょうか。

  • @nishimaki
    @nishimaki2 ай бұрын

    こちらこそご視聴ありがとうございます。はい、LSTMでは一般的に「平均気温」「降水量」「日照時間」すべての変量が平均気温の予測に関与しています。降水量、日照時間についても同様に、すべての変量を用いて予測がされています。

  • @user-ul8pr9tv2p
    @user-ul8pr9tv2p2 ай бұрын

    ありがとうございます!色々な要素で予測できるのは便利ですね! 度々で申し訳ないのですが、売上予測をする場合に天気を説明変数に用いる場合、これらは晴:1雨:2曇:3のようにすればLSTMで使うことができるんでしょうか?それともこの手法は気温のように連続値でないと駄目でしょうか?

  • @nishimaki
    @nishimaki2 ай бұрын

    はい、それでも実行可能ですが、その場合「晴フラグ」=0 or 1、「曇フラグ」=0 or 1のように2変数に変換する方が望ましいかと思います(2つのフラグがいずれも0なら雨と分かります)。 晴:1雨:2曇:3と変換してしまうと、あくまでコンピュータは数字として処理するので「晴と曇の差は、晴と雨の差の2倍」のような解釈をしてしまい、変な結果が得られてしまう可能性があります。

  • @user-ul8pr9tv2p
    @user-ul8pr9tv2p2 ай бұрын

    @@nishimaki なるほど、、0か1かで分けた方が良いのですね。ありがとうございます!

  • @user-wc1sn6kl5x
    @user-wc1sn6kl5x2 ай бұрын

    plt.savefig("折れ線.png")でグラフが保存されません。'str' object is not callableとエラーが出てきます。どうしたらいいでしょうか、、、

  • @nishimaki
    @nishimaki2 ай бұрын

    そのエラーは、「plt.savefig("折れ線.png”)」の行で発生していますでしょうか? そうであれば、「plt」という名前の変数がどこかに存在してしまっていないかご確認ください。

  • @user-dy9mq1fx1w
    @user-dy9mq1fx1w3 ай бұрын

    素人ながら仕事に活かすことを目的に勉強させていただいております。 時系列分析の動画をヒントに、コールセンターの次月の日ごとの受電件数について、ある程度予測できるようになりました(時間ごとの件数を求められていて挫折しそうですが、コメント欄では表現しきれないくらい、感謝しております)。 因果推論も、もう一歩知見を深めたいのですが、どのように勉強するのが良いでしょうか(やりたいことは、顧客ごとに、どのようなアプローチ(メール、SMSなどなど)の組み合わせを、どのタイミング(たとえば、次月の何日など)で行うのが良いかの予測です)。 Pythonも少しは使えるようになったのですが、オススメの本やサイトなどありましたら教えていただきたいです(本当は動画期待していますが、お忙しいですよね)。

  • @nishimaki
    @nishimaki3 ай бұрын

    こちらこそご視聴ありがとうございます。 因果推論でしたら「効果検証入門」という書籍がおすすめです。Pythonについては、最低限のことを学んだらkaggleなどでどんどん実践してみることが上達への近道かと思います。 また、動画制作が滞っておりすみません。今後も投稿は続ける予定ですので、ぜひ長い目で見守っていただけますと幸いです。

  • @user-dy9mq1fx1w
    @user-dy9mq1fx1w3 ай бұрын

    @@nishimaki ありがとうございます!さっそく、注文しました! kaggleは、タイタニックを少しやったあと他は滞っていたので、これを機に興味ある順にチャレンジしていきます。 動画作成の経験はないですが、作ったものを公開する側のお気持ちや状況はわかるところもあるので、感謝とともにひっそりとお待ちしております。

  • @user-dy9mq1fx1w
    @user-dy9mq1fx1w2 ай бұрын

    @@nishimaki 先日は本を紹介していただき、ありがとうございました。なんとか1巡しまして、大まかな考え方は理解できたかなと思います(とにかくバイアスを取り除く努力をするという程度ですが)。ただ、RDDだけではマルチチャネルでのアプローチについて因果推論は厳しいと理解しました。この方向で進むと次はSEMやMeta-LearnersだとChatGTPが教えてくれました(LiNGAMというのも出てきましたが、一旦外しました。)。KZreadで説明などいくつか見たのですが、概況しかわからず、実践のためには本を読んだほうが良いかなぁと考えております。もしお時間あるときに可能でしたら、次に読むべき本などご紹介いただけたら幸いです。

  • @nishimaki
    @nishimaki2 ай бұрын

    はい、因果推論の考え方は、とにかくなるべくバイアスを取り除くという事に尽きるかと思います。次の書籍につきまして、実践面ですと個人的には「政治学と因果推論」という書籍は読みやすかったです。 また少々ハイレベルとなりますが、理論面では「インベンス・ルービン 統計的因果推論」の上下巻も理解を深めるためには良いかと思います。

  • @user-dy9mq1fx1w
    @user-dy9mq1fx1w2 ай бұрын

    @@nishimaki ありがとうございます!早速読み始めました。理論の方は、数学が高校で止まっているので、並行して大学基礎数学から始めます(ヨビノリ見てます)。

  • @kokosan10
    @kokosan103 ай бұрын

    この動画見ながらやったらp値のところが#DIV/0!のエラー出たんですけど、なんでですか?

  • @nishimaki
    @nishimaki3 ай бұрын

    理由はいくつか考えられますが、データの選択範囲などが誤っている、もしくは値がすべて同じ(ばらつきが無い)といった状態になっておりませんでしょうか?

  • @user-fo1my8kd2f
    @user-fo1my8kd2f5 ай бұрын

    散らばりの2乗の平均値に√をつけると1乗の散らばりの平均値が出るのはなぜですか?

  • @nishimaki
    @nishimaki5 ай бұрын

    標準偏差は1乗の散らばりの平均値を表すものではなく、あくまで標準偏差は「データの散らばりを表現する手段のひとつ」として本動画のように計算される指標となります。

  • @user-dz1qb1jw1w
    @user-dz1qb1jw1w5 ай бұрын

    わかりやす

  • @user-km1zm1xd4j
    @user-km1zm1xd4j5 ай бұрын

    平方根になおせない

  • @user-bt8zf2ps6d
    @user-bt8zf2ps6d5 ай бұрын

    ああ神ですこれで明日のテストしにませんあかてんとりませんかみよありがとうああでもすうえーがおわってるのでしにましたありがとうおれのじんせいりゅうねんするしてしまうう

  • @Manabu-dg2yl
    @Manabu-dg2yl5 ай бұрын

    いつも、 勉強になっております。 是非、因子分析も講義動画をあげて頂けると嬉しいです!

  • @nishimaki
    @nishimaki5 ай бұрын

    こちらこそご視聴ありがとうございます! 因子分析について、ネタ帳に追加させて頂きます!

  • @user-kl7kw2zm2x
    @user-kl7kw2zm2x5 ай бұрын

    分かりやすいです!

  • @user-dq1jo4tj7s
    @user-dq1jo4tj7s5 ай бұрын

    すっっごwwwwwわかりやすいww

  • @09j108016
    @09j1080165 ай бұрын

    凄くわかりやすいです! ありがとうございます!! 1点質問です。 jupyter labを使用しているのですが27分あたりでご解説頂いているcvsに書き出処理の際にダウンロードしたデータが文字化けしてしまうのですが解決方法はありますでしょうか。

  • @nishimaki
    @nishimaki5 ай бұрын

    こちらこそご視聴ありがとうございます! ご使用のOSなどにもよりますが、 df_XXX.to_csv("XXX.csv",encoding="shift_jis") のように、encodingという引数に文字コードを指定すると直るかも知れません。お試しください。

  • @kingindou__
    @kingindou__5 ай бұрын

    わかりやすい

  • @tu_kawa
    @tu_kawa5 ай бұрын

    わっかりやす!

  • @user-cj6gc8uz7e
    @user-cj6gc8uz7e6 ай бұрын

    ありがとうございます!

  • @nishimaki
    @nishimaki6 ай бұрын

    ご支援ありがとうございます!大変励みになります。

  • @Hasbullarichiro
    @Hasbullarichiro6 ай бұрын

    天才やん

  • @mol_cat_0917
    @mol_cat_09176 ай бұрын

    ゲームの併売分析をする際にゲームタイトルをどうやって抽出しようか悩んでました。 こちらを参考にやってみようと思います! ありがとうございます!

  • @nari3oi962
    @nari3oi9626 ай бұрын

    わかりやすいです! ただ、片側検定と両側検定の違いというかやる意味がよくわかりませんでした。 初心者なんで

  • @user-lh8mx1bd3c
    @user-lh8mx1bd3c6 ай бұрын

    まじでわかりやすい

  • @user-zc3fr5cf5p
    @user-zc3fr5cf5p6 ай бұрын

    一瞬で理解できました。めっちゃわかりやすいです!

  • @nari3oi962
    @nari3oi9627 ай бұрын

    すごいわかりやすい! ちなみにカイ2乗検定ってどんな計算式なんでしょうね?

  • @nishimaki
    @nishimaki7 ай бұрын

    ありがとうございます! カイ二乗検定の計算式は結構分かりやすいかと思います。例えば下記サイトなどご参考になりませんでしょうか? www.business-research-lab.com/220705-2/

  • @imgonimgon8693
    @imgonimgon86937 ай бұрын

    めちゃくちゃためになりました ありがとう

  • @gumi3326
    @gumi33267 ай бұрын

    xgboostにおいて、最初の決定木の本数は決まっていますか?また、学習ごとに一本ずつ決定木が足されていくという認識であっていますか?

  • @nishimaki
    @nishimaki7 ай бұрын

    最初の決定木の本数は通常1本になります。決定木が足されてゆくというより、学習するごとに決定木が少しずつ改善されてゆくイメージが近いかと思います。

  • @gumi3326
    @gumi33267 ай бұрын

    @@nishimaki その改善の過程で、並列に本数が増える場合もあるということですか?

  • @user-to3fx2do4d
    @user-to3fx2do4d7 ай бұрын

    大数の法則,中心極限定理、大切なんですね。具体例も分かりやすいと思いました。 「ダランベールの嘘」をご存じなのではないでしょうか。 『2枚のコインを投げたとき Ⅰ:2枚とも表,Ⅱ:1枚が表でもう1枚が裏,Ⅲ:2枚とも裏 である確率は コインが区別できるなら1:2:1だが コインが区別できないなら1:1:1である。』というような話です。 今現在でもこの1:1:1は論理的に間違っていると言うことが数学の世界で認められていません。 とても重要なことなので1:1:1は論理的に間違っていることを示す動画をデータサイエンス塾!!さんで作っていただけないないでしょうか。 以下をお読みください。 コインではなくサイコロについて考えましょう。 2個のサイコロを投げて ①両方とも偶数になる ②片方が偶数で片方が奇数になる ③両方とも奇数になる という確率を考えます。 【サイコロをA,Bと区別できる】 事象を(Aの目,Bの目)と表します。 偶奇だけ見た事象は次の4通りです。   (奇,奇) (奇,偶)   (偶,奇) (偶,偶) それぞれが同様に確からしいと見なせば、それぞれの現れる確率は1/4。 そこで確率は①1/4②1/2③1/4 つぎに1~6の目まで考えた事象は次の36通りです。 (1,1), (1,3),(1,5) (1,2),(1,4),(1,6) (3,1), (3,3),(3,5) (3,2),(3,4),(3,6) (5,1), (5,3),(5,5) (5,2),(5,4),(5,6) (2,1), (2,3),(2,5) (2,2),(2,4),(2,6) (4,1), (4,3),(4,5) (4,2),(4,4),(4,6) (6,1), (6,3),(6,5) (6,2),(6,4),(6,6) それぞれが同様に確からしいと見なせば、それぞれの現れる確率は1/36。 そこで確率は①9×(1/36)=1/4 ②18×(1/36)=1/2 ③9×(1/36)=1/4 偶奇だけ見たときと矛盾がありません。 【区別できない】 (奇,偶)は(偶,奇) と同一の事象なので偶奇だけ見た事象は次の3通りです。   (奇,奇)   (偶,奇) (偶,偶) それぞれが同様に確からしいと見なせば、それぞれの現れる確率は1/3。 そこで確率は①1/3②1/3③1/3 例えば(1,3)は(3,1) と同一の事象なので1~6の目まで考えた事象は次の21通りです。 (1,1) (3,1), (3,3) (5,1), (5,3),(5,5) (2,1), (2,3),(2,5) (2,2) (4,1), (4,3),(4,5) (4,2),(4,4) (6,1), (6,3),(6,5) (6,2),(6,4),(6,6) それぞれが同様に確からしいと見なせば、それぞれの現れる確率は1/21。 そこで確率は①6×(1/21)=2/7 ②9×(1/21)=3/7 ③6×(1/21)=2/7 偶奇だけ見たときと矛盾してしまいます。 区別しないで考えた事象をどれも同様に確からしいと考えたことが間違えの原因です。 どうか よろしくお願いいたします。

  • @nishimaki
    @nishimaki7 ай бұрын

    丁寧なご説明ありがとうございます。大変勉強になりました。ネタ帳に含めさせて頂きます!

  • @user-ob9lg3rx2i
    @user-ob9lg3rx2i7 ай бұрын

    クソ無知なんだけど、これ動画でも同じことできるのかな 手を振ってるor静止してる みたいな