ただの一個人の趣味レベルでも、歌詞を分析するのは楽しい。
その方法としてテキストマイニングを行った。テキストマイニングとは、wikiを見ると以下の通りだ。
文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
出典: フリー百科事典『ウィキペディア(Wikipedia)』テキストマイニング
ここでは、大量のテキストデータから語句を抽出するみたいな感じで使っていく。
では、本題の歌詞を抽出する方法について紹介する。今回、抽出作業で様々なサイトにお世話になった。先人に感謝いたします。
1.歌詞を抽出する方法
行った手順は以下の通りだ。もっと簡単な方法があるんだろうな~とは思ったが、これが精一杯だった。
①抽出したいアーティストの歌詞をLyrics Master 2でテキストファイル化する
②テキストファイルを一括で結合して、エディタで不要な文字を消す
③KH Coderを使って語句を抽出する
以下で詳しく解説していく。
1-1.Lyrics Master 2でテキストファイル化
Lyrics Master 2でテキストファイル化する手順は以下の記事を参考にさせていただいた。
ファイル→環境設定→保存→ファイル内容:[lyrics]に変更することで歌詞だけのデータを取り出せる。
ちなみに歌詞が出てこない曲は、歌詞カードなどにLINEの「文字認識」機能を利用するのがおすすめだ。認識がかなり優秀でビックリした。
1-2.テキストファイルを一括で結合
歌詞のテキスト ドキュメント (.txt)がずらりと並んでいると思う。これをKH Coderに放り込むために、下準備をした。
例えばアジカンの場合、ひとつのフォルダに全歌詞をまとめて入れ、結合操作を行う。以下の記事を参考にさせていただいた。
CSVやTXTなど複数のファイルを結合してまとめる方法 Windowsのコマンドで簡単にできる!
すると1個のテキスト ドキュメント (.txt)に全歌詞がまとまる。
1-2’.最初やったときファイル内容:[lyrics]にしなかった痛恨のミス
この部分はただの反省なので、「1-3.KH Coderを使って語句を抽出する」に進んでもらえば大丈夫だ。
書いてしまったあと気づき、消すのは忍びないので残しておくことにする。
Lyrics Master 2が初期設定のままだったのか、歌詞を取り込んだところ、曲名、歌手、作詞作曲が載ったままだった。
そのためテキストをエディタで開き、歌詞を取り出せるよう編集していったのである。特にこの編集工程は、もっといい方法あるんだろうな~と思っているが、備忘録として残しておこうと思う。(→あったんだよな、これが・・・)
私が編集で使ったのは秀丸エディタだが、WordでもGoogleドキュメントでもなんならメモ帳でも可能なので、馴染みのあるものを使えばいいと思う。
全歌詞の入ったテキストをエディタでひらくと、曲名、歌手、作詞作曲が載ってしまっているので、これを消していく。改行は問題なさそうなので無視した。
まず、歌手名を★に置換する。次に歌手作詞作曲を置換する。このときの置換は無にすることによって消す手間が省ける。
次に★を検索して強調させる。あとは★と曲名と消しきれなかった作詞作曲名を手作業で消していくだけだ。★は別に目立てばなんでもいい。
1-3.KH Coderを使って語句を抽出する
KH Coderの使い方はチュートリアル & ヒントを見て行った。データが大きいのか、インストールに2時間程度かかった記憶がある。
弾かれてしまう語句は強制抽出で指定するのがコツだと思う。
基本的に、「君」「僕」「俺」「私」「誰」「彼」を指定した。
ちなみに「彼」は「彼女」と「彼方」も一緒に抽出してしまうので、詳細を確認してそれぞれ分けてカウントした。
その他参考にさせていただいた記事は以下の通りだ。
彼らは「今」をうたう ‐KAT-TUN楽曲の歌詞を抽出・分析してみました‐
V6の歌詞を抽出してみた(V6、トニセン、カミセン、ソロ、年代別)
皆様、ありがとうございました。
せっかくなので、終わる前にひとつクイズを出させて欲しい。
歌詞を抽出したバンドの記事リスト
クイズの答え
①BUMP OF CHICKEN
②レキシ
③ASIAN KUNG-FU GENERATION
④フジファブリック
正解できただろうか?
コメント