前回のJSONデータ取得に引き続き,本の題名,著者名,出版社名,ISBN番号のAND検索が可能なページを作ってみました。
下記の通り,Pythonを使って4並列DLに対応したツールが公開されていますが,これだけでは全件検索はできませんので,あれこれ付け加えてあります。
データを全件取得するツールをGithubで公開しました。PythonからのAPI利用の参考にもご利用ください https://t.co/iH3SGZNRfz
— openBDjp (@openBDjp) 2017年1月25日
使用した技術要素は次の通りです。
- JSONデータ取得・・・download.py(上記のTweet参照)を参考にして作ったPythonスクリプト
- 検索・・・SQLite3ファイルをPHPスクリプトで検索
- 表示・・・HTML + CSS + JavaScript (+ jQueryのColorbox)
Webプログラミングってのはホントーに多様な言語を使わないといかんので面倒ですな。PythonとPHPとJavaScriptの3種類使うと頭ごちゃごちゃになりました。
問題点は多々あれど,とりあえず目先のものとしては「検索速度が遅いこと」です。そりゃまぁ約79万件の書誌データを約700MBのSQLite3ファイルに突っ込んで検索しているだけですから当然といえば当然。単独利用でも10秒以上待たされることザラです。気を長くして検索して下さいな。メンテモードになること多々あると思いますんで,使えなかったら諦めて下さい。
memcached + MySQL利用で高速になることは知ってますが(前に優秀な卒研生がやってます),卒研発表のデモがあり,あまりMySQLに負荷かけたくないので,高速化の着手は2月下旬以降かしらね?
とりあえずはデータが取れて検索できたので良しとしておきます。