租税回避地(Tax Haven)を使っていたお金持ち達のやり取りを暴露したPanama文書が話題になっていますが,2.6TBもの文書を解析した手法について分かりやすく概説した方がいらっしゃいますので紹介しておきます。
RDBにするだけでは人物や会社との関係性が分かりづらいので可視化し,人力を借りつつ解析精度を上げていくという手法を取っているようです。技術的解説としては
Neo4j BlogAnalyzing the Panama Papers with Neo4j: Data Models, Queries & More
も必読とのこと。
ここで取り上げられている可視化ツール類は卒研でも使えそうです。