ニッポンの数字ブログ

統計情報のポータルサイト「ニッポンの数字」の開発日記。

行き詰ったからPythonを勉強してみよう

サイト作りをしていて一番面倒なのは、データをWEBページ用に整形すること。データがexcelやcsvならまだ楽なのだけど、PDFだとどうしようもなく時間がかかる。

大抵の統計データは整形しやすいファイルで提供されているのだけど、有価証券報告書などはPDFで提供されている。過去20年近くの決算データを200社以上に渡って抽出したが、今考えてもよくこんなことできたなと思う。

そこで出会ったのがPython。オライリーから出た「退屈なことはPyshonにやらせよう」という書籍を本屋で見かけ、「これだ!」とインスピレーションを感じた。

「PDFからもっと楽にデータを抽出できたらなあ」とずっと考えていて、たぶんその願いを叶えてくれるのがPythonなんだろうと思う。実際にPythonで何ができるのか全然わかっていないのだけど、ネットでざっと調べたところPDFからのデータ抽出に対応できそうだった。

この夏はPython勉強してパワーアップしよう!