[本033] 小林『ことばのデータサイエンス』

Pocket

こちらも紹介が遅れた頂きもの。

来年度の担当授業でガッツリ使わせていただくつもり。

知り合いだから言うのではなく、類書の中で抜群にオススメ。以下の3点による。

  1. 説明と具体例が端的で、何なのかが分かりやすい。
  2. 次の文献指示が豊富かつ的確。
  3. ツールやWebページの紹介が具体的で有用。

章立ての良さも1.には含まれる。英語教育関係の類書であれば第4章や第5章の内容、つまりどうやってグラフを描くかや各種検定の解説をすぐしてしまいそうだが、その前に「ことばのデータを集める」(収集だけでなく設計や管理、整形も含む)に始まり、「ことばを数える」、「データの概要を調べる」と3章続くのが良い。第8〜10章はさすがに難しく、もう少し詳しい解説が欲しいなあと感じたが、仮に後半3章が十分理解できなくても、この分野で卒論・修論を書こうと思う人が本書を手に取って損をすることはないだろう。

説明と具体例の端的さについて言うと、たとえば平均値の説明にも『シャーロック・ホームズの冒険』の冒頭3文を使うなど、本書を通じて常に、抽象的な説明にとどまらず、分析の具体的なイメージを持ちやすいようにしてくれている。それに加えて、細かいところだが、「光学文字認識(optical character recoginition:OCR)ソフトウェアを用いて」(p. 9)のように、いきなり「OCRかけてテキストを電子化」みたいな書き方をしない読者への配慮が有難い。データの可視化についても、そのグラフがどういう性格のものであるか(たとえば折れ線グラフで注目するポイント(p. 62)など)が説明されていて、痒いところに手が届いている。「何なのかが分かりやすい」と評したのはそういうところである(注でも言葉の意味や関数について、「平均はExcelだとAVERAGE関数で」ぐらいのところから、丁寧にフォローされている)。コーパス分野では普通のことなのかもしれないが、個人的には第3章で四分位偏差の解説が丁寧なのが印象的で、それが第4章での箱ひげ図の見方を準備してくれている。

各章が10数〜20ページ程度でコンパクトにまとめられ、200ページに満たない本書だが、内容は全く薄くない。「原則として、データは分析の目的に合わせて作るもの」(p. 3)、「安易にビックデータブームに踊らされることなく、分析の目的に合った、信頼性の高いデータを使わなければなりません」(p. 14)などと、淡々とした記述の中にさらっとメッセージが置いてあったりする。個人的には対応分析の原理の説明(p. 143)に膝を打った。

とりわけ著者の学問的誠実さに敬服するのは、各章で取り上げられる内容や分析手法について「詳しくはこちらを参照」、あるいは「さらに知りたい人はこちらの文献が参考になる」といった指示が必ず付されていることだ。具体例の選択にもそれは表れているところだが、これは、当該分野に造詣が深くなければできない。Rのコードを直接載せたりしているわけではないが、使用したパッケージなどの言及も欠かさない。本書を地図として相当深いところまで学習を進めていくことができる点もオススメの理由である。

Rのパッケージに言及がありAntConcCasualConcを用いたりもしているが、それに精通していないと読めないかというとそんなことはない。Web上のコーパス構築ツールや構文解析ツールを紹介するだけでなく、BNCCOCAも当然使うし、ユーザーローカルのテキストマイニングGoogleTrendsも具体例で用いる。図示も豊富なので、読者はイメージが持ちやすく、実際に使ってみたくなるに違いない。ここまで丁寧に多彩なツールを紹介できるのは著者ならではだろう。時間が経つにつれ古びてしまったり変わってしまうサービスもあるだろうが、本書から「分析でやってみたいことがあったら、検索してみよ。さすれば、何かしら既にやっている人がいて、開発してくれた便利なツールが得られん(あるいは、詳しい人に尋ねよ)」という姿勢が伝わってくる。

最後に、御礼方々、私が教えている学生には一読しても理解されないかな〜と感じた記述をいくつか挙げておく(たぶん次著でより分かりやすい説明をしてくれる)。

  • 「標本から得られた頻度から母集団における頻度を推定する際の精度が標本の大きさの平方根に比例する」(p. 14)
  • 「基本的にWindowsのコマンドプロンプトやMacのターミナルのようなCUI環境で利用するもの」(p. 25)
  • X2検定以外では、対数尤度比検定が特徴語抽出によく用いられます」(p. 91。共起有意性のところの対数尤度比の説明(p. 107)も)
  • 「非線形回帰分析」(p. 114。これは著者の責任ではないと思うが、p. 115に挙げられている右図に引かれているのが結局「線(形)」なので、混乱する)
  • 「図中の個々のデータと回帰直線のずれを残差といい、線形回帰分析では、個々のデータの残差の2乗を合計した値が最も小さくなるように回帰直線を引きます」(pp. 116–117。ここはp. 122のような図が添えられていればもっと分かりやすくなると思った)
  • 「点線の横線は、誤判別率の最小値に標準偏差を足した値で、その点線を最初に下回ったcp値を剪定の基準として用います」(p. 131)
  • キャンベラ距離とウォード法のくだり(p. 141)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です