Googleの根幹になった論文を読む。検索エンジンの解剖。【Google1】#42

新シリーズ「Googleのアルゴリズム」です。「Googleの始まりはひとつの学術論文」「引用数を数える、というシンプルなアイデア」「使いづらかった検索エンジンを使えるレベルに引き上げた」などGoogleの根幹となったひとつの論文のすごさを話します。
【目次】
00:00 世界4位の企業の根幹になった博士論文
06:52 Googleの始まりとなった論文を読もう
09:31 論文のすごさはやはり「アルゴリズム」
11:25 Webページの仕分けは途方もない作業
14:53 シンプルなアイデア、偉大な論文
21:53 いにしえの検索エンジンには司書がいない
26:31 被リンク数は「いいページ」の指標
31:41 被リンク数の重大な欠陥
35:14 救世主登場
【参考文献】
○The anatomy of a large-scale hypertextual Web search engine
snap.stanford.edu/class/cs224...
→タネになった論文。フルバージョンでなく簡易版。数式はほとんど出てこず、割と楽しんで読めてすごい。
○世界でもっとも強力な9のアルゴリズム
amzn.to/3yHh8BR
→何度も参考文献に挙げているおもろ本。おもしろアルゴリズムに触れて、巧妙なトリックに快い驚きを感じたい方はどうぞ。
【サポーターコミュニティ加入はこちらから】
yurugengo.com/support
【親チャンネル：ゆる言語学ラジオ】
/ @yurugengo
【フランチャイズプロジェクト：ゆる学徒ハウス】
/ @yurugakuto
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています！
【お仕事依頼はこちら！】
yurugengo@gmail.com
【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
Twitter→ / kenhori2
noteマガジン→note.com/kenhori2/m/m125fc452...
個人KZread→ / @kenhorimoto
【水野太貴プロフィール】
名古屋大学文学部卒。専門は言語学。
某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
#Google #ゆるコンピュータ科学ラジオ

Пікірлер: 105

@yurucom Жыл бұрын
【参考文献】 ○The anatomy of a large-scale hypertextual Web search engine snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf →タネになった論文。フルバージョンでなく簡易版。数式はほとんど出てこず、割と楽しんで読めてすごい。 ○世界でもっとも強力な9のアルゴリズム amzn.to/3yHh8BR →何度も参考文献に挙げているおもろ本。おもしろアルゴリズムに触れて、巧妙なトリックに快い驚きを感じたい方はどうぞ。【サポーターコミュニティ加入はこちらから】 yurugengo.com/support 【おたよりフォーム】 forms.gle/BLEZpLcdEPmoZTH4A ※皆様からの楽しいおたよりをお待ちしています！
@user-ut2ft3pr8r Жыл бұрын
昔、しょうもないホームページつくってyahooに登録したら、「こんなカスページつくって登録するんじゃねえ」という公式のお叱りメールが返ってきたことがある。
@TheFOX0721 Жыл бұрын
オノマトペの小野先生、便研究の辨野先生に並んで、数学界隈にはベクトル場の矢野(vector field)先生がいます矢野さんは外国人研究者に苗字である矢野の意味を尋ねられたときにこの話をしたら信じてもらえなかったらしいです。
@user-me5yi2xd4y
Жыл бұрын
完全に素晴らしい知識…！
@user-uu2wx7ik7h
8 күн бұрын
たまにいる運命づけられてる人
@yu100nabeyan Жыл бұрын
罰ゲームだったはずの堀元さんのデジタルタトゥーさらっと出してて毎回笑う
@ikoany
Жыл бұрын
堀元さんの黒歴史のページランクがどんどん上がってますね
@WEISSERKATER Жыл бұрын
水野さんにとっては、堀元さんのページランクが最も高いとわかる尊い動画
@gosikilove4723 Жыл бұрын
「水銀」を検索したら「清水銀行」が出てきたりしました。
@tamotate Жыл бұрын
一昔前、まだディレクトリ型の検索エンジンがあった時代に、中学校の情報の授業で「googleなどは危険なサイトが表示される可能性があるので、yahooを使いなさい」なんて言われていました
@Iwashi_kobayashi Жыл бұрын
冒頭で水野さんがリンクを思いついていて「ものすごい台本ブレイク来たな…」とひやひやしましたが、何故か彼方へ飛んで行って安心しました。
@MY03318 Жыл бұрын
Excel苦手マンなのに循環参照パッと出てくるの凄い
@yujin6 Жыл бұрын
ザッカーバーグが当初作ったサービス、今なら炎上するとおっしゃってましたが、当時も炎上してました。
@aizawasia Жыл бұрын
何冊引用しているかで信用を図ろうとするのが、水野さんは「専門家」ではなく「読書家」なんだなって伝わってくる。参考・引用論文が書かれているページが分厚い本は中身もしっかりしていますものね...
@kcsyacho0 Жыл бұрын
人の黒歴史って本人は恥ずかしいけど、結局周りからしたら結構なチャームポイントなんだよな。
@nickbow1528 Жыл бұрын
Google前ってサイト作ったら各検索エンジンに検索されるように登録申請みたいなのしてた記憶
@tom36260 Жыл бұрын
被引用数を使うアイデア、循環等の問題を解決する数学的解析、実際に数億あるページのランクを計算する分散コンピューティングとどの工程も鮮やかでいつ思い返してもため息が出る
@akkiipitti5606 Жыл бұрын
既出かもしれませんが、20:52 からの人名と功績などが一致するような現象はaptronym（アプトロニム）（ja.wikipedia.org/wiki/-onym）ですね。以前アクロニムやバクロニムの話が出たときにwikiで見かけたものです。
@wazakaa9296 Жыл бұрын
掛け合いのシンクロ度が日に日に増してて漫才みたいで好き
@oboro307 Жыл бұрын
かつては、検索エンジンよりも個人的なリンク集ページや相互リンクが力を持っていたので、検索エンジンありきの世界観ではなかったですただ、著名なエンジンに載ることは名誉でした
@bitansan Жыл бұрын
WWWの誕生秘話みたいなのを昔NHKスペシャルで観ましたが、たしか、CERNの科学者たちが、互いの論文を読みやすいように共通のフォーマットで保存し、引用先へ簡単にアクセスできるようにリンクさせたというのが始まりだったかと思います。ハイパーリンクというのがそもそも論文の引用だったんですね。
@hibaryllis Жыл бұрын
35:00 あと論文だと、引用は時系列にそって行われるので循環参照の問題は基本的に発生しないですね後から発表された論文を引用することは普通あり得ない
@mudaso-heavy-user Жыл бұрын
楽しみに待ってました
@Plasma_Cluster Жыл бұрын
30:16 ここでの堀元さんの黒歴史が水野さんに循環参照という気づきを与えたのでは？
@user-nb2wk6fq3x Жыл бұрын
25:15 25:15 noteを作った深津さんなら、ランキング上位の記事しか出回らない状態を避けるためにあえてやってそうですね
@J_CHICKEN137 Жыл бұрын
クリシェの星出さんしか知らなかったので、小野先生と辨野先生を咄嗟に出せる水野さんと堀元さんのアンテナの張り方に感動。 S&P500のプアー（Poor）さんみたいな逆バージョンも蒐集したくなりますね。
@user-tn4tw7qr4d Жыл бұрын
浅学にしてこの論文知らなかったんだけど、聞きながら予想したら割と当たって楽しかったな
@r_h3002 Жыл бұрын
オノマトペの小野先生，便研究の辨野先生，言語学なら「のだ文」の野田春美先生も有名。あと多義語などの「多義」の研究者タギー（Divid Tuggy）とか。
@iou_256 Жыл бұрын
Googleのことをよくしらない劣等感を煽られる素晴らしいラジオ
@ChoiJeonSon
Жыл бұрын
ビジネス関連からっきし
@sakanachan-kg8ev Жыл бұрын
めちゃくちゃ面白かったし今回のエンディングめちゃくちゃ上手かったです。次回も楽しみにしてます😊
@shm_7EC Жыл бұрын
noteは閲覧数などによるランキングを表示すると低俗な記事が増えてしまうため、運営が人力でチェックしておすすめの記事を出しているらしいです参考: kzread.info/dash/bejne/iaysm5N9YpnXiLA.html
@TheNum009 Жыл бұрын
昔にWebマーケティング業者を選ぶ時に、雑談でそれとなくページランクの話題を振って反応を観察してた。良い業者と言うか、熱心な担当者はあの論文は一回は見てるんだよな。
@user-mn9bp8kc7u Жыл бұрын
0:24 去来って聞いたの、オドぜひの「息子が若林になりたがっている」以来だよ…
@user-rt9gp4qh6u Жыл бұрын
Googleと生まれた日が同じだったので話題作りのために役立ちました!!!!
@nooya2927 Жыл бұрын
Pagerankは実用的にも数理的にも素晴らしいアルゴリズムだし、GFSとかBigtableらへんもすばらしい。Googleがアカデミア出身ということを強く表していると思う。
@tekoku3 Жыл бұрын
こじき的旅行記のリンクは何で貼ってないんですか？貼っていいですか？
@nog2662 Жыл бұрын
「良い論文をまとめて紹介した本」って、ガチな意味なら、たぶん教科書なんよな。
@chi-ba4786 Жыл бұрын
そういえば知り合いが昔々にニュースサイトの結果を人力でチェックする仕事をしていました。懐かしいですね。
@yasayuyu6368 Жыл бұрын
Yahooはディレクトリ型でしたね。ロボット型はインフォシークなど。ロボット型はテキスト拾ってるだけでしたね。
@takeshitaguchi Жыл бұрын
21:24 宇宙飛行士になるための苗字「星出」、理科で有名になるための理科雄」
@nasu_no_suage Жыл бұрын
線形代数の講義で固有値の話のときに応用として挙げられた思い出
@user-pe2fq3lb7c Жыл бұрын
ヤフーカテゴリとかあったなあ
@user-gx7ht8bl6j Жыл бұрын
私はディレクトリ階層時代から知ってる世代なのですが、現在、この名残がブログの管理に残っていると感じています。例えば、和食に関するブログを作ろうと思ったら、最初に「生活→料理→和食」みたいな階層を選ばされますよね。昔は「なんか和食のホームページってないのかなぁ」と思ったら、そういう記事を管理しているサイトのトップページに行って「生活→料理→和食」みたいに辿っていったら発見できるみたいな感じでしたね。しかも、その頃はそもそもホームページの数自体がものすごく少なかったので「探したけどなかった」なんてのはザラでしたし、それに対する不満も別にありませんでした。時代的には、まだ家にパソコンなんてなかったですし、回線を引いている場所自体が、大学とかごくごく一部の企業とかだけだったので、主に大学院生とかが暇つぶしに巡回していただけだったんじゃないですかね。その後、大きくネット環境が変化したのはWindows95が普及してからだと思います。家でパソコンを買って電話回線でネットにつなげるということが比較的安価でできるようになりましたかららね。その後、単語検索ができるようになってgoogle検索が生まれるのですが、google検索に関してはネタバレになりそうなので発言を控えておきます。
@gutsnosada Жыл бұрын
水野さんより一個上ですが、最初にインターネットに触れた頃（多分2000年くらい？）にはまだYahoo!Japanはディレクトリ型だったように思いますその後数年してネットサーフィンとかをするような頃に「Googleを使え！なぜならページランクという仕組みで…」みたいな新書とかムック本がいっぱい出てきた覚えがありますね
@rikku6055 Жыл бұрын
掘虐助かる。
@user-jl4pz9os4x Жыл бұрын
ゆる電脳史学ラジオの出番や
@user-jp3rp8qh6f Жыл бұрын
古のホームページで「相互リンク募集！」みたいなのあったけどそういう事なのね
@check0mate2004 Жыл бұрын
21:24　『砂戦争』って本の著者が石弘之さんってのもシリーズの列の後ろのほうでいいから入れてあげてほしい
@kamikami2941 Жыл бұрын
検索エンジンといえば、当時はyahooが一番使われてたような記憶があとはエキサイトとかライコスとかインフォシークとかグーとかいろいろあったなぁ、当時。いつのまにかグーグル一強になってたけど。
@koi506 Жыл бұрын
そういえばブログ形式誕生前からサイト間で相互リンクという習わしがあって、それが徐々に否定されていきましたね。
@kyotoasatte Жыл бұрын
インド史研究の大家である辛島昇先生は、名前の縁もあってインドのカレー文化に関する書籍もものされています
@jeuxjeux11 Жыл бұрын
簡易版の論文読んでみたけどPageRankの算出方法が面白いな
@100EIZO Жыл бұрын
むしろgoogleこそが、何でもヒットするけど何が良いか分からない、「がばがば」のイメージだった。それまでは、動画中でも言われているように、yahoo!などのリンク集として整理された者に頼っていたから。（なお用語検索もできたとは思う）名前と業績で結びつくのは、先崎一（まっさきはじめ）さん。初代統合幕僚長。
@user-ih4jl9mq9e Жыл бұрын
「ググる」という言葉が生まれたのも、単にgoogleで検索することのもじりってだけじゃなくて、「Yahoo!!なんかよりgoogleの方がいいぞ」っていうネット民(2ちゃんねらー)の俺らだけ知ってるマウントなところから来てるんですよね
@user-tz8eb8jt3r Жыл бұрын
水野さんの「分かります？逆に」って持ちネタにしようとしてるw
@user-bp7fy2qp9m Жыл бұрын
ディレクトリ型の時代でも語・文章単位の検索はあったかと。階層を一段ずつ降りていく必要はありません。また、タグ付け的なものもありましたので、綺麗な階層化に拘る必要も無し。
@kajibadorobou Жыл бұрын
ページランクは大量の連立方程式を立てたら計算できそう
@Rpaka_man Жыл бұрын
twitterとかの話題のツイートに出すツイートも同じようなアルゴリズム使われてそうフォロワーの多いアカウントのいいねは重めに計算されるみたいな
@user-bz5yg4qd9f Жыл бұрын
堀元さんと水野さんで作った本読みたいなぁ
@soar5040
Жыл бұрын
読みたい〜
@user-jj9cy6ze5w Жыл бұрын
本筋と関係ない情報を吸収するぶんには昔の検索の仕方のほうがお得だったのかも……
@HACKIE300 Жыл бұрын
21:00　司法権の独立をめぐる論争で有名な浦和事件、被告人は浦和充子、第一審は浦和地裁
@user-gg3br2nu7q Жыл бұрын
この本読んだなあ中身忘れてたけど
@boyacky4118 Жыл бұрын
人力検索といえば、はてな
@user-sg2st4nl6h Жыл бұрын
そうか、水野さんディレクトリ型知らないのか、昔のYahooとかはそれだったので個人ブログが検索上位に載るのはニュースであり名誉みたいなところがあった
@user-pe7gj3rs4z Жыл бұрын
水野さんの誤答も堀元さんのイジリも、IFに対する文理の認識に違いみたいなものを、ひしひしと感じる
@masayuki1011k Жыл бұрын
35:40 surfsharkさん…？
@TakeZho946 Жыл бұрын
昔のgooとかYahoo とかディレクトリ型だったのかなぁ…？
@kenjih1408
Жыл бұрын
検索エンジンのデータ構造がディレクトリ型であることと実際の検索作業でディレクトリを辿ることは別なんですが動画は聞き齧りで話してるのでその辺りを混同してますね
@user-ms9jw6bt3b Жыл бұрын
21:02 空想科学読本で有名な柳田理科雄先生はペンネームではなく本名、というのも類似例でしょうか
@user-3fju4x5sm1 Жыл бұрын
広告がGoogleChrome
@takuto25j Жыл бұрын
相互リンクってそういうことだったのか
@user-lm2fb5dv5b Жыл бұрын
1999年くらいからインターネットしてたけどgooとか Yahoo!が主流だったなあ。Googleが一般的になったのは2000年代に入ってから。
@nanaki1006 Жыл бұрын
キーワード検索やり始めたのはinfoseekじゃない？ Googleってかなり後発だった気がする
@user-uu4nf3vj5k Жыл бұрын
お二人に無闇な親近感を覚えるのは、自分から見てリアルな「お兄ちゃん」の歳だからか...
@webisuvip Жыл бұрын
yahooに登録されるのがステータスな時代がありました
@perfforyou8 ай бұрын
iモードってディレクトリ形式だったような
@takenonya1672 Жыл бұрын
良質なページのリンクは、良質である。
@Nerurrrr Жыл бұрын
ページランクはオシャレだし、「良いページ」と「ラリーペイジ」は韻が一緒
@user-uy4br8kv4b
Жыл бұрын
？
@pascalpaskel Жыл бұрын
私には、再生速度を0.75倍にしてちょうど良いくらいでした。
@user-tz8eb8jt3r Жыл бұрын
めっちゃ夏服
@user-zs4ry2ji3z4 ай бұрын
将棋のレーティングみたい
@sozuinekomi9882 Жыл бұрын
Yahooがポータルサイトでなく検索サイトだった頃は登録型（申請したらYahooが認証して登録する）だったけど、そのくせ、死にリンクが多くて、まったくクロール型に敵わなくなった。ネットの爆発に全く対処できてなかった。 Googleは死んだサイトもキャッシュしてて、見ることができた。最近のGoogleは昔ヒットしてて今も生きてるけど検索に出てこなくなったサイトとかあるから、信用は落ちてる
@のっぴ Жыл бұрын
堀元さんが過去のディレクトリー型の検索エンジンをイメージさせるためにYahooのメニューを最初に出してきたけど、日本にグーグルがやって来る前の主流はYahooのディレクトリー型の検索エンジンだった。イメージでなく実態がYahooだった。偶然にしては出来すぎ？
@zeerf Жыл бұрын
ランダムサーフでラジオやってない、多分これがヒントってことやな？！
@lonestar930 Жыл бұрын
行列計算で一発なのかと思ってた
@andante9869 Жыл бұрын
数年前まではYahooが一応ディレクトリ検索をサポートしてたハズ
@user-dk9zt2nf6n Жыл бұрын
水野さんが『循環参照になっちゃう』と気付いた事に堀元さんが驚いてたけど大抵の人間は被『引用先の被引用数』と聞いたら｢循環するんじゃね？｣って気付くと思う
@user-gt8mr5jl6k Жыл бұрын
（脱線が長いので考察）被参照数が多いページが良いページ？（視聴後）当たってた…！（…概要に答えあった）
@fourfiveone5968 Жыл бұрын
プリンではなくブリンで例えればよかったんだな。
@volta9751 Жыл бұрын
博士論文を何と略すか、は学問分野によるのか地方によるのか・・・？　はくろん、ドクろん、Dろん。私の周りは「ドクろん」でした。
@kareha90810 ай бұрын
※くっそどうでも良い話です。 23:58 現実の図書館だと多分こうですね（日本十進分類法（以下NDC）を採用しているものとする）（伊坂さんを知らないのですが内容的に小説っぽい）おそらく文学なので 900 に行きます。次に、日本の文学なので 910 に行きます。文学の中でも小説は 9〇3 になるので 913 に行きます。さらに現代作家（明治以降）なら 913.6 になります。で、伊坂さんはイなのでイから始まる作家さんの群を探して行くことになります。文学(900)＞日本文学(910)＞日本の小説(913)＞日本の明治以降の小説(913.6)＞伊坂幸太郎の小説読書だと図書館学の019に行くので順番に配列している図書館だとめっちゃ離れたところに行きますね。まあその本がどの主題に属しているのかを考えて配架してるのは人力なんだよねぇ！（古のウェブページの話聞いてて一緒だなと思った）
@lonestar930 Жыл бұрын
Yahoo!キッズの保健のカテゴリにあったページ読み漁ってた小2の俺。
@bonh7561 Жыл бұрын
野田春美先生のご著書『「の（だ）」の機能』くろしお出版
@idmuri Жыл бұрын
表紙は黒かった(水野, 2022)。
@norirumi8644 Жыл бұрын
ほえーあたまいいー
@user-xe3ir9qm9g Жыл бұрын
私の院時代は、卒論、修論、ドク論と呼んでた。なぜか博士だけカタカナ。なので博論は違和感を覚える。
@user-ff2iz8vp9v Жыл бұрын
ま，最近の論文は粗製濫造されてるけどねっ
@user-woooody Жыл бұрын
14:53 「シンプルなアイデア、偉大な論文」はネットワーク系の「単純な法則、複雑な世界」って本のオマージュ？