Googleの根幹になった論文を読む。検索エンジンの解剖。【Google1】#42
新シリーズ「Googleのアルゴリズム」です。「Googleの始まりはひとつの学術論文」「引用数を数える、というシンプルなアイデア」「使いづらかった検索エンジンを使えるレベルに引き上げた」などGoogleの根幹となったひとつの論文のすごさを話します。
【目次】
00:00 世界4位の企業の根幹になった博士論文
06:52 Googleの始まりとなった論文を読もう
09:31 論文のすごさはやはり「アルゴリズム」
11:25 Webページの仕分けは途方もない作業
14:53 シンプルなアイデア、偉大な論文
21:53 いにしえの検索エンジンには司書がいない
26:31 被リンク数は「いいページ」の指標
31:41 被リンク数の重大な欠陥
35:14 救世主登場
【参考文献】
○The anatomy of a large-scale hypertextual Web search engine
snap.stanford.edu/class/cs224...
→タネになった論文。フルバージョンでなく簡易版。数式はほとんど出てこず、割と楽しんで読めてすごい。
○世界でもっとも強力な9のアルゴリズム
amzn.to/3yHh8BR
→何度も参考文献に挙げているおもろ本。おもしろアルゴリズムに触れて、巧妙なトリックに快い驚きを感じたい方はどうぞ。
【サポーターコミュニティ加入はこちらから】
yurugengo.com/support
【親チャンネル:ゆる言語学ラジオ】
/ @yurugengo
【フランチャイズプロジェクト:ゆる学徒ハウス】
/ @yurugakuto
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています!
【お仕事依頼はこちら!】
yurugengo@gmail.com
【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
Twitter→ / kenhori2
noteマガジン→note.com/kenhori2/m/m125fc452...
個人KZread→ / @kenhorimoto
【水野太貴プロフィール】
名古屋大学文学部卒。専門は言語学。
某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
#Google #ゆるコンピュータ科学ラジオ
Пікірлер: 105
【参考文献】 ○The anatomy of a large-scale hypertextual Web search engine snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf →タネになった論文。フルバージョンでなく簡易版。数式はほとんど出てこず、割と楽しんで読めてすごい。 ○世界でもっとも強力な9のアルゴリズム amzn.to/3yHh8BR →何度も参考文献に挙げているおもろ本。おもしろアルゴリズムに触れて、巧妙なトリックに快い驚きを感じたい方はどうぞ。 【サポーターコミュニティ加入はこちらから】 yurugengo.com/support 【おたよりフォーム】 forms.gle/BLEZpLcdEPmoZTH4A ※皆様からの楽しいおたよりをお待ちしています!
昔、しょうもないホームページつくってyahooに登録したら、「こんなカスページつくって登録するんじゃねえ」という公式のお叱りメールが返ってきたことがある。
オノマトペの小野先生、便研究の辨野先生に並んで、数学界隈にはベクトル場の矢野(vector field)先生がいます 矢野さんは外国人研究者に苗字である矢野の意味を尋ねられたときにこの話をしたら信じてもらえなかったらしいです。
@user-me5yi2xd4y
Жыл бұрын
完全に素晴らしい知識…!
@user-uu2wx7ik7h
8 күн бұрын
たまにいる運命づけられてる人
罰ゲームだったはずの堀元さんのデジタルタトゥーさらっと出してて毎回笑う
@ikoany
Жыл бұрын
堀元さんの黒歴史のページランクがどんどん上がってますね
水野さんにとっては、堀元さんのページランクが最も高いとわかる尊い動画
「水銀」を検索したら「清水銀行」が出てきたりしました。
一昔前、まだディレクトリ型の検索エンジンがあった時代に、中学校の情報の授業で「googleなどは危険なサイトが表示される可能性があるので、yahooを使いなさい」なんて言われていました
冒頭で水野さんがリンクを思いついていて「ものすごい台本ブレイク来たな…」とひやひやしましたが、何故か彼方へ飛んで行って安心しました。
Excel苦手マンなのに循環参照パッと出てくるの凄い
ザッカーバーグが当初作ったサービス、今なら炎上するとおっしゃってましたが、当時も炎上してました。
何冊引用しているかで信用を図ろうとするのが、水野さんは「専門家」ではなく「読書家」なんだなって伝わってくる。参考・引用論文が書かれているページが分厚い本は中身もしっかりしていますものね...
人の黒歴史って本人は恥ずかしいけど、結局周りからしたら結構なチャームポイントなんだよな。
Google前ってサイト作ったら各検索エンジンに検索されるように登録申請みたいなのしてた記憶
被引用数を使うアイデア、循環等の問題を解決する数学的解析、実際に数億あるページのランクを計算する分散コンピューティングと どの工程も鮮やかでいつ思い返してもため息が出る
既出かもしれませんが、20:52 からの人名と功績などが一致するような現象はaptronym(アプトロニム)(ja.wikipedia.org/wiki/-onym)ですね。 以前アクロニムやバクロニムの話が出たときにwikiで見かけたものです。
掛け合いのシンクロ度が日に日に増してて漫才みたいで好き
かつては、検索エンジンよりも個人的なリンク集ページや相互リンクが力を持っていたので、検索エンジンありきの世界観ではなかったです ただ、著名なエンジンに載ることは名誉でした
WWWの誕生秘話みたいなのを昔NHKスペシャルで観ましたが、たしか、CERNの科学者たちが、互いの論文を読みやすいように共通のフォーマットで保存し、引用先へ簡単にアクセスできるようにリンクさせたというのが始まりだったかと思います。ハイパーリンクというのがそもそも論文の引用だったんですね。
35:00 あと論文だと、引用は時系列にそって行われるので循環参照の問題は基本的に発生しないですね 後から発表された論文を引用することは普通あり得ない
楽しみに待ってました
30:16 ここでの堀元さんの黒歴史が水野さんに循環参照という気づきを与えたのでは?
25:15 25:15 noteを作った深津さんなら、ランキング上位の記事しか出回らない状態を避けるためにあえてやってそうですね
クリシェの星出さんしか知らなかったので、小野先生と辨野先生を咄嗟に出せる水野さんと堀元さんのアンテナの張り方に感動。 S&P500のプアー(Poor)さんみたいな逆バージョンも蒐集したくなりますね。
浅学にしてこの論文知らなかったんだけど、聞きながら予想したら割と当たって楽しかったな
オノマトペの小野先生,便研究の辨野先生,言語学なら「のだ文」の野田春美先生も有名。あと多義語などの「多義」の研究者タギー(Divid Tuggy)とか。
Googleのことをよくしらない劣等感を煽られる素晴らしいラジオ
@ChoiJeonSon
Жыл бұрын
ビジネス関連からっきし
めちゃくちゃ面白かったし今回のエンディングめちゃくちゃ上手かったです。 次回も楽しみにしてます😊
noteは閲覧数などによるランキングを表示すると低俗な記事が増えてしまうため、運営が人力でチェックしておすすめの記事を出しているらしいです 参考: kzread.info/dash/bejne/iaysm5N9YpnXiLA.html
昔にWebマーケティング業者を選ぶ時に、雑談でそれとなくページランクの話題を振って反応を観察してた。 良い業者と言うか、熱心な担当者はあの論文は一回は見てるんだよな。
0:24 去来って聞いたの、オドぜひの「息子が若林になりたがっている」以来だよ…
Googleと生まれた日が同じだったので話題作りのために役立ちました!!!!
Pagerankは実用的にも数理的にも素晴らしいアルゴリズムだし、GFSとかBigtableらへんもすばらしい。Googleがアカデミア出身ということを強く表していると思う。
こじき的旅行記のリンクは何で貼ってないんですか? 貼っていいですか?
「良い論文をまとめて紹介した本」って、ガチな意味なら、たぶん教科書なんよな。
そういえば知り合いが昔々にニュースサイトの結果を人力でチェックする仕事をしていました。懐かしいですね。
Yahooはディレクトリ型でしたね。ロボット型はインフォシークなど。ロボット型はテキスト拾ってるだけでしたね。
21:24 宇宙飛行士になるための苗字「星出」、理科で有名になるための理科雄」
線形代数の講義で固有値の話のときに応用として挙げられた思い出
ヤフーカテゴリとかあったなあ
私はディレクトリ階層時代から知ってる世代なのですが、現在、この名残がブログの管理に残っていると感じています。例えば、和食に関するブログを作ろうと思ったら、最初に「生活→料理→和食」みたいな階層を選ばされますよね。昔は「なんか和食のホームページってないのかなぁ」と思ったら、そういう記事を管理しているサイトのトップページに行って「生活→料理→和食」みたいに辿っていったら発見できるみたいな感じでしたね。しかも、その頃はそもそもホームページの数自体がものすごく少なかったので「探したけどなかった」なんてのはザラでしたし、それに対する不満も別にありませんでした。時代的には、まだ家にパソコンなんてなかったですし、回線を引いている場所自体が、大学とかごくごく一部の企業とかだけだったので、主に大学院生とかが暇つぶしに巡回していただけだったんじゃないですかね。その後、大きくネット環境が変化したのはWindows95が普及してからだと思います。家でパソコンを買って電話回線でネットにつなげるということが比較的安価でできるようになりましたかららね。その後、単語検索ができるようになってgoogle検索が生まれるのですが、google検索に関してはネタバレになりそうなので発言を控えておきます。
水野さんより一個上ですが、最初にインターネットに触れた頃(多分2000年くらい?)にはまだYahoo!Japanはディレクトリ型だったように思います その後数年してネットサーフィンとかをするような頃に「Googleを使え!なぜならページランクという仕組みで…」みたいな新書とかムック本がいっぱい出てきた覚えがありますね
掘虐助かる。
ゆる電脳史学ラジオの出番や
古のホームページで「相互リンク募集!」みたいなのあったけどそういう事なのね
21:24 『砂戦争』って本の著者が石弘之さんってのもシリーズの列の後ろのほうでいいから入れてあげてほしい
検索エンジンといえば、当時はyahooが一番使われてたような記憶が あとはエキサイトとかライコスとかインフォシークとかグーとかいろいろあったなぁ、当時。 いつのまにかグーグル一強になってたけど。
そういえばブログ形式誕生前からサイト間で相互リンクという習わしがあって、それが徐々に否定されていきましたね。
インド史研究の大家である辛島昇先生は、名前の縁もあってインドのカレー文化に関する書籍もものされています
簡易版の論文読んでみたけどPageRankの算出方法が面白いな
むしろgoogleこそが、何でもヒットするけど何が良いか分からない、「がばがば」のイメージだった。それまでは、動画中でも言われているように、yahoo!などのリンク集として整理された者に頼っていたから。(なお用語検索もできたとは思う) 名前と業績で結びつくのは、先崎一(まっさきはじめ)さん。初代統合幕僚長。
「ググる」という言葉が生まれたのも、単にgoogleで検索することのもじりってだけじゃなくて、「Yahoo!!なんかよりgoogleの方がいいぞ」っていうネット民(2ちゃんねらー)の俺らだけ知ってるマウントなところから来てるんですよね
水野さんの「分かります?逆に」って持ちネタにしようとしてるw
ディレクトリ型の時代でも語・文章単位の検索はあったかと。階層を一段ずつ降りていく必要はありません。また、タグ付け的なものもありましたので、綺麗な階層化に拘る必要も無し。
ページランクは大量の連立方程式を立てたら計算できそう
twitterとかの話題のツイートに出すツイートも同じようなアルゴリズム使われてそう フォロワーの多いアカウントのいいねは重めに計算されるみたいな
堀元さんと水野さんで作った本 読みたいなぁ
@soar5040
Жыл бұрын
読みたい〜
本筋と関係ない情報を吸収するぶんには昔の検索の仕方のほうがお得だったのかも……
21:00 司法権の独立をめぐる論争で有名な浦和事件、被告人は浦和充子、第一審は浦和地裁
この本読んだなあ 中身忘れてたけど
人力検索といえば、はてな
そうか、水野さんディレクトリ型知らないのか、昔のYahooとかはそれだったので個人ブログが検索上位に載るのはニュースであり名誉みたいなところがあった
水野さんの誤答も堀元さんのイジリも、IFに対する文理の認識に違いみたいなものを、ひしひしと感じる
35:40 surfsharkさん…?
昔のgooとかYahoo とかディレクトリ型だったのかなぁ…?
@kenjih1408
Жыл бұрын
検索エンジンのデータ構造がディレクトリ型であることと 実際の検索作業でディレクトリを辿ることは別なんですが 動画は聞き齧りで話してるのでその辺りを混同してますね
21:02 空想科学読本で有名な柳田理科雄先生はペンネームではなく本名、というのも類似例でしょうか
広告がGoogleChrome
相互リンクってそういうことだったのか
1999年くらいからインターネットしてたけどgooとか Yahoo!が主流だったなあ。Googleが一般的になったのは2000年代に入ってから。
キーワード検索やり始めたのはinfoseekじゃない? Googleってかなり後発だった気がする
お二人に無闇な親近感を覚えるのは、自分から見てリアルな「お兄ちゃん」の歳だからか...
yahooに登録されるのがステータスな時代がありました
iモードってディレクトリ形式だったような
良質なページのリンクは、良質である。
ページランクはオシャレだし、「良いページ」と「ラリーペイジ」は韻が一緒
@user-uy4br8kv4b
Жыл бұрын
?
私には、再生速度を0.75倍にしてちょうど良いくらいでした。
めっちゃ夏服
将棋のレーティングみたい
Yahooがポータルサイトでなく検索サイトだった頃は登録型(申請したらYahooが認証して登録する)だったけど、そのくせ、死にリンクが多くて、まったくクロール型に敵わなくなった。ネットの爆発に全く対処できてなかった。 Googleは死んだサイトもキャッシュしてて、見ることができた。 最近のGoogleは昔ヒットしてて今も生きてるけど検索に出てこなくなったサイトとかあるから、信用は落ちてる
堀元さんが過去のディレクトリー型の検索エンジンをイメージさせるためにYahooのメニューを最初に出してきたけど、日本にグーグルがやって来る前の主流はYahooのディレクトリー型の検索エンジンだった。 イメージでなく実態がYahooだった。 偶然にしては出来すぎ?
ランダムサーフでラジオやってない、多分これがヒントってことやな?!
行列計算で一発なのかと思ってた
数年前まではYahooが一応ディレクトリ検索をサポートしてたハズ
水野さんが『循環参照になっちゃう』と気付いた事に堀元さんが驚いてたけど 大抵の人間は被『引用先の被引用数』と聞いたら「循環するんじゃね?」って気付くと思う
(脱線が長いので考察)被参照数が多いページが良いページ? (視聴後)当たってた…! (…概要に答えあった)
プリンではなくブリンで例えればよかったんだな。
博士論文を何と略すか、は学問分野によるのか地方によるのか・・・? はくろん、ドクろん、Dろん。私の周りは「ドクろん」でした。
※くっそどうでも良い話です。 23:58 現実の図書館だと多分こうですね(日本十進分類法(以下NDC)を採用しているものとする)(伊坂さんを知らないのですが内容的に小説っぽい) おそらく文学なので 900 に行きます。 次に、日本の文学なので 910 に行きます。 文学の中でも小説は 9〇3 になるので 913 に行きます。 さらに現代作家(明治以降)なら 913.6 になります。 で、伊坂さんはイなのでイから始まる作家さんの群を探して行くことになります。 文学(900)>日本文学(910)>日本の小説(913)>日本の明治以降の小説(913.6)>伊坂幸太郎の小説 読書だと図書館学の019に行くので順番に配列している図書館だとめっちゃ離れたところに行きますね。 まあその本がどの主題に属しているのかを考えて配架してるのは人力なんだよねぇ!(古のウェブページの話聞いてて一緒だなと思った)
Yahoo!キッズの保健のカテゴリにあったページ読み漁ってた小2の俺。
野田春美先生のご著書 『「の(だ)」の機能』 くろしお出版
表紙は黒かった(水野, 2022)。
ほえーあたまいいー
私の院時代は、卒論、修論、ドク論と呼んでた。 なぜか博士だけカタカナ。 なので博論は違和感を覚える。
ま,最近の論文は粗製濫造されてるけどねっ
14:53 「シンプルなアイデア、偉大な論文」はネットワーク系の「単純な法則、複雑な世界」って本のオマージュ?