This is a cache of https://github.com/mocobeta/building-search-system-book. It is a snapshot of the page at 2020-07-17T06:12:43.303+0000.
GitHub - mocobeta/building-search-system-book: 「仕事ではじめる<strong>検索</strong>システム」という本があったなら,という想像の産物です
Skip to content
Branch: master
Go to file
Code

Latest commit

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
Jul 14, 2020

README.md

[PoC][書籍] 仕事ではじめる検索システム

これは何?

一連のツイートに触発されて, @mocobeta がこんな本あったらいいな,という妄想を書き下した備忘録です。ご自由にお使いください

特定のソフトウェア/プロダクトの使い方に限定せず,かつ実用的な(全文)検索システムをゼロから作る,ことをテーマにした日本語の書籍は,私の知る限りではありません(たぶん)。

以下の章立てはあくまで想像の産物なので,形になる予定はいまのところありませんが,目次だけでも誰かの役に立つといいなと思って書きました(興味のある出版社の方,もしもいらっしゃいましたらご連絡ください 😊)。思いつくトピックを短時間で詰め込んでみたので,クォリティはご容赦ください...あと,これ全部カバーしたら軽く1000ページ越えそう。 改善を思いついたら PR/Issue をください& このテーマについては任せろ/勉強しながら書きたいという方はぜひ執筆者欄を埋めてくださいませ :) => 話がおかしな方向に膨らむと良くないので,公募的ものは控えたいと思います。悪ノリすみません。

章立て

目次

1章 なんのために検索システムをつくるのか

執筆者: TBA

情報システムの中で,「検索」が果たしてきた役割,歴史,など。イントロダクション。

2章 検索システムプロジェクトのはじめかた

執筆者: TBA (または @mocobeta)

実務で検索システムを作るには,当然ですが技術以外の要素もたくさん絡んできます。プロジェクト管理を学ぶ章。

  • 検索案件の立ち上げ方
  • ファーストスコープに何を含めるべきか
  • 人員配置やステークホルダー
  • プロジェクト管理,リスク管理
  • 立ち上げフェーズ以降

3章 検索エンジンのしくみ

執筆者: TBA (または @mocobeta)

検索システムのコアは,なんといっても検索エンジンです。検索エンジンの仕組みを学ぶ章。

  • grep コマンドと検索エンジンの違い
  • インデックスデータ構造いろいろ
  • 転置インデックスと文書類似度
  • 分散検索システム(レプリケーションやシャーディング)のしくみ

4章 データのインデクシング

執筆者: TBA (一部は @mocobeta)

検索システムは,大まかに分けてインデクシング(オフライン処理)と検索クエリ処理(オンライン処理)に分けられます。インデクシングについて学ぶ章。

  • テキストのインデクシング: 形態素解析,良質な索引語をつくるには
  • テキスト以外のインデクシング(数値や地理情報など)
  • 情報抽出: 効果的なナビゲーション(絞り込み)のための技術
  • 外部データソース(RDBなど)との連携
  • Web クローリング

5章 検索クエリの処理とランキング

執筆者: TBA (一部は @mocobeta)

ユーザーからの入力クエリを受け付けて,ヒットしたドキュメントをランキングして検索結果を作るまでを学ぶ章。検索システムの華形ともいえる?

  • 検索精度とは: 適合率と再現率
  • 文書類似度によるランキング
  • 検索クエリのパラメータチューニング
  • シノニム展開
  • 検索クエリ補完やサジェスチョン,Query Understanding について
  • 検索結果の良さの測り方: オフライン指標,オンライン指標
  • オンライン評価の設計と運用: A/Bテストなど
  • ランキング学習 (Learning to Rank)

6章 ユーザーインターフェース

執筆者: TBA

検索システムは,ユーザーとのインタラクションがとても重要なシステムです。心地良い検索 UI/UX について学ぶ章。

  • Web ブラウザインタフェース
  • モバイルインタフェース
  • 音声入力インタフェース
  • インタラクティブ性について

7章 検索システム事例

執筆者: TBA

商用サービスとして運用されている検索システムの事例から学ぶ章。

  • toC 検索システム事例
  • toB 検索システム事例

8章 応用トピック

執筆者: TBA

関連の深い周辺システムや,最先端の研究に学ぶ章。

  • 大規模/高トラフィック検索システムの設計と運用
  • 推薦システムとの関わり
  • QAシステム(自然文検索)との関わり
  • 画像検索,マルチモーダル検索
  • Online Learning to Rank
  • Personalized Search
  • Semantic Search / Knowledge Graph
  • Dense vector search / approximate knn search
  • Neural Networks for IR
  • プライバシーと情報検索 (Privacy-preserving IR)

参考文献

書籍

Information Retrieval の教科書:

(番外編) IRの教科書がたくさん紹介されているありがたいブログ記事:

Lucene 系で,いくつか実システム寄りでトピックを絞った書籍がいくつか出ている:

オンラインで読める記事など

多数ありとてもカバーしきれないので,独断によりほんの一部を紹介:

About

「仕事ではじめる検索システム」という本があったなら,という想像の産物です

Resources

License

Releases

No releases published
You can’t perform that action at this time.