本しゃぶり

骨しゃぶりの本と何かを繋げるブログ

君に100年分のアニメタイトルが収録された辞書を提供しよう

アニメのタイトルを入力する際、変換に手間取ったことはないだろうか。
この記事を読めば、そのような悩みから解放されることになる。

俺は君たちに辞書を配りたい。
アニメタイトル100年分が収録された辞書を。

f:id:honeshabri:20161112195455p:plain:w300

2016/11/27 更新
辞書データ更新

2016/11/15 更新
辞書データをgithubに上げたことを追記

2016/11/15 更新
416作品追加
タイトルや読み仮名の修正

最強のアニメ辞書

次の文章には誤りがある。

今期で一番おもしろいスポーツアニメは『競女!!!!!!!』である。


わかっただろうか。
正解は「"!"の数が1つ足りない」だ。

このようにアニメのタイトルというものは、正しく入力するのが難しいものもある。それは『競女!!!!!!!!』のように数を間違えやすいものや、『侍霊演武:将星乱』のように読みが分かりにくい*1もの、あるいは『魔法少女なんてもういいですから。』のように句読点が含めているものなどだ。ブログを書く時やTweetする時、こういった作品はタイトルを入力するだけでストレスになる。そしてうっかり間違えたりすると、警察がやって来ることになる。

Google日本語入力をはじめ、最近のIMEはアニメなどのサブカルチャーにも強くなったが、それでもまだまだ力不足を感じてしまうのが現状だ。有名な作品ならともかく、新しい作品やマイナーな作品はスムーズに変換できない。日本のネット文化において、アニメは無視できない程の影響を持っているのだから、これは問題だと言えよう。ただでさえ日本は生産性が低いと言われているのだ。

そこでこれである。

https://raw.githubusercontent.com/anilogia/animedb/master/dict/google-ime-dict.txt

これはGoogle日本語入力用の辞書ファイルである。中身はこのようなデータとなっている。

イモカワムクゾウゲンカンバンノマキ  芋川椋三玄関番之巻 固有名詞  
デコボコシンガチョウメイアンノシッパイ   凸凹新画帳 名案の失敗 固有名詞  
チャメボウシンガチョウノミフウフシカエシノマキ   茶目坊新画帳 蚤夫婦仕返しの巻 固有名詞  
サルカニガッセン    猿蟹合戦    固有名詞  
ユメノジドウシャ    夢の自動車 固有名詞  
ハナワヘコナイメイトウノマキ  塙凹内名刀之巻   固有名詞  
ネコトネズミ  猫と鼠   固有名詞  
イタズラポスト   いたずらポスト   固有名詞  
チャメボウクウキジュウノマキ  茶目坊空気銃の巻    固有名詞  
ハナサカジジイ   花咲爺   固有名詞  

1917年から2016年秋までのアニメタイトルが9580個*2入っている。

2016/11/16 追記
githubでも公開し始めた。
animedb/google-ime-dict.txt at master · anilogia/animedb · GitHub
後述するようにマスターデータをgithubで管理していることから、こちらのほうが最新版となりがち。

このファイルを右クリックで保存したら以下の手順で辞書を登録する。

  1. Google日本語入力辞書ツールを開く
    f:id:honeshabri:20161112193848p:plain f:id:honeshabri:20161112194855p:plain

  2. 管理から新規辞書にインポートを選択
    f:id:honeshabri:20161112194607p:plain

  3. ダウンロードしたファイルを選択し、辞書名をつける
    f:id:honeshabri:20161112195007p:plain

  4. アニメのタイトルが登録される
    f:id:honeshabri:20161112195249p:plain

例えばどらごんぼーると入力すると候補がこうなる。

f:id:honeshabri:20161112200756p:plain f:id:honeshabri:20161112200808p:plain

以下略

映画もTVスペシャルもちゃんと出てくるようになる。

まほうしょうじょならこう。

f:id:honeshabri:20161112201450p:plain

今期アニメである『魔法少女なんてもういいですから。 セカンドシーズン』も当然出てくる。

ソース

元となるデータは当然ここからだ。

github.com

ここにあるanimedb.ymlから作品名と読み仮名を抽出することで作成した。

このデータを知らない人のために説明すると、Anilogiaは俺の仲間内で作成したアニメデータベースである。このデータベースを「100年分のアニメ作品リストをExcelデータで公開した」で公開したところ、このようなコメントが付いた。

100年分のアニメ作品リストをExcelデータで公開した - 本しゃぶり

githubでやろうよ

2016/10/08 21:52

もっともだ、ということで現在はgithub上で管理している。それにともなってマスターデータをYAML形式とした。Excelのほうも公開を続けているが、これは最新版ではなくなっている。

また、animedb.ymlには各話情報も含まれている。さすがに全てとは言えないが、それでもデータ量は多く、2016/11/12現在で容量は20MBを超える

最新版の出力方法

この記事で提供している辞書データは2016/11/15時点のものである。アニメはこれからも増えるし、ミスがあればデータの修正は行われる。すると最新版の辞書が欲しくなるのが自然な流れだろう。というわけで上記animedb.ymlから辞書ファイルを生成する方法も書いておく。

  1. Docker (https://www.docker.com/) をインストールする
  2. animedb リポジトリをクローンする: git clone git@github.com:anilogia/animedb.git
  3. 2 でクローンしたリポジトリディレクトリに移動
  4. docker-compose run --rm vendors で依存する python パッケージをインストール(1回だけで良い)
  5. docker-compose run --rm dev でコンテナの起動&シェルを開く
  6. ./animedb list --format google_ime > output.txt で、output.txt という辞書ファイルが生成される

ここが間違っているとか、あの作品が無いとか

可能な限り正確になるように努めているが、なにしろ100年分のデータである。作品数は1万を超え、1クールごとに70作ほどのペースで増加中だ。また、作品名はあっても読み仮名が入力されていないものもある。こういった不備はあって当然と思ってもらいたい*3

だからこそのgithubである。ミスや不足を見つけたならば、編集に協力してほしい。指摘だけでも大歓迎だ。もしgithubがよくわからないというのであれば、この記事へのブコメでも構わない。何しろミスを見つけるのすら大変な量であるのだ。

あなたのアニオタとしてのスキルが必要とされています。

Anilogia関係の記事

きっかけ



データの使用例

*1:「ソウルバスター ショウセイラン」と読む

*2:2016/11/18現在

*3:それでもそこらのアニメ辞書よりデータは多いだろうが