私が最近始めたPythonを用いた自然言語処理のスキルは、業務効率改善に繋がり、その結果、自分の時間を取り戻すための一助となることが目標です。その一環として今回は、形態素解析器MeCabでオリジナル辞書を作成する方法を紹介します。
1. mecab-ipadic-Neologdのダウンロード
まず最初に、ベースとなるユーザー辞書を準備する必要があります。ここでは、IPADICを拡張した辞書であるmecab-ipadic-Neologdを使用します。これは新しい単語や固有表現を追加することで、以下の特徴を持っています:
- 辞書の更新が毎週2回以上実施される
- はてなキーワードのダンプデータやニュース記事などWeb上の新しい言語資源から単語を抽出し、辞書を作成する
2. 登録したい単語を追加
次に、追加したい単語をCSVファイルに追加します。CSVファイルはメモ帳で開くことができます。
3. 追加した辞書をコンパイルする
Anaconda PowerShellを管理者で起動し、以下のコマンドを実行して辞書をコンパイルします。
#辞書が登録してあるフォルダーまで移動
C:\> cd Progra~1\Mecab
C:\Program Files\MeCab> cd ipadic
#辞書ファイルをコンパイル
C:\Program Files\MeCab\dic\ipadic> mecab-dict-index -f utf8 -t utf8 -d "C:\Program Files\MeCab\dic\ipadic" -u 【新しく追加した辞書ファイル名】.dic 【新しく追加した辞書ファイル名】.csv
reading 【新しく追加した辞書ファイル名】.csv ... 3224806emitting double-array: 100% |###########################################|
注意点としては、Mecabのフォルダーが”Program Files”にあったので、” Progra~1 “に変更して実行しています。PowerShellはスペースを認識しないため、このような対応が必要です。
4.mecabrcにユーザー辞書のパスを指定
最後に、mecabrc(MeCabの設定ファイル)にユーザー辞書のパスを指定します。これにより、PythonからMeCabを使う際に自動的に新しく追加した辞書が読み込まれます。
以上が、MeCabでオリジナル辞書を作成する手順となります。自然言語処理を使って、あなた自身の業務効率改善につながるような有益な情報を提供していきたいと思います。