書評:『入門自然言語処理』


2017年 07月 07日

NLTK (313x400).jpg

題名:入門自然言語処理

Natural Language Processing with Python
Analyzing Text with the Natural Language Toolkit

Steven Bird、Ewan Klein、Edward Loper 著、萩原 正人、中山 敬広、水野 貴明 訳
大型本、592項、本体3800円

2010年11月8日 発行

オライリー・ジャパン

Natural Language Toolkit

Natural Language Processing with Python (書籍)


人工知能、機械学習、ディープラーニングというと、画像処理関連がやたらに多いが、それ以外の分野もある。
その中でも、自然言語処理は非常に大きな、そして重要な分野である。

ことばをコンピュータで扱おうとすると、画像とは違った、あれこれ面倒なことがいっぱいある。
言葉を対象としている人工知能の本の場合、自然言語処理の部分の説明は非常に短く、いきなり読もうとしても用語が分からない、どんなツールがあるのか、サンプルデータがあるのか、だいたい分からないことだらけになる。

自然言語処理を対象としてAI関連の本で、自著で延々と説明するのは大変なので、読むべき自然言語処理の本が挙げられていることが多いが、そのなかで必ずといってよいくらい紹介されるのが、この『入門自然言語処理』である。

この本は、Pythonを使って、自然言語処理の基本を紹介している。
といっても、原書は英語で、日本語の場合どうなんだろうと思ったら、最終章が「Pythonによる日本語自然言語処理」となっている。

さて、この本、発行が2010年とかなり古く、原書は、2009年になっている。
そのため、Python3ではない。

この本で使われているのが、NLTK(Natural Language Toolkit)という、Pythonのツールキットである。
このツールキットは、アメリカのアイビーリーグの1つ、ペンシルベニア大学にて作られたものだ。


以上は前置きで、これから肝心なことを紹介しよう。

本書はとても古いのだが、Natural Language Toolkit のサイトでは、今も更新が続いており、ちゃんとPython 3 対応になっている。

ソフトだけでなく、書籍の方も、ネット上はちょこちょこと更新されているように見える。
さらに、これらは、オープンであり、自由に使えるので、とても助かる。

本は、文字だけでなく、プログラムや実行例が多数載っており、これらを自身のPython上で確かめるには、オンラインの書籍からコピペをいっぱいすることで、確認ペースも上昇する。

オンライン版は文章の部分は英語であるが、肝心なのはプログラム、実行例などであろう。
それほど大きくは変わっていないようなので、英語をどうしても読みたくない場合には、英語版を見ながら、文章を読むときだけ翻訳書に頼るという方法もある。

でも、結局面倒になるので、全部オンラインだけで済ませるのが効率がよく、かつお金もかからない。

英語を勉強するのではなく、英語で勉強しよう。
金もかからず、技術も身に付き、情報はいっぱい集まる。