2012-12-16 :-)
_ [TF-IDF][自然言語処理]2012年の日記から TF-IDF を計算してみた。
やりかたは山下達雄さんのところのそのまま 形態素解析と検索APIとTF-IDFでキーワード抽出
- Microsoft Windows 7 64bit
- cygwin
- ruby
- mecab
ディレクトリを 2 回舐めてるとか mecab の ruby binding 使わないのとか言わない。
タグクラウドにしてみたんだが、ううむ。
#!/usr/bin/ruby -Ku # TF-IDF を求める # # [を] 形態素解析と検索APIとTF-IDFでキーワード抽出 http://chalow.net/2005-10-12-1.html # # require 'pp' # 形態素解析 def analysis(inputfile) # mecab_cmd = '/cygdrive/c/Program\ Files/MeCab/bin/mecab.exe' mecab_cmd = '/cygdrive/c/Program\ Files\ \(x86\)/MeCab/bin/mecab.exe' text = `#{mecab_cmd} -b 81920 #{inputfile}` words = [] lines = text.split(/\r\n/) lines.grep(/固有名詞/) {|line| words << line.split("\t")[0] } return words end # キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF) def getTF(inputdir) tf = {} tf.default = 0 n = 0 Dir.glob("#{inputdir}/*.td2").each {|e| next unless FileTest.file?(e) n += 1 words = analysis(e) words.each {|word| tf[word] += 1 } } return tf, n end def getDF(inputdir, tf) df = {} df.default = 0 Dir.glob("#{inputdir}/*.td2").each {|e| next unless FileTest.file?(e) tf.each {|word, count| count = getCount(word, e) df[word] += count } } return df end # 代表キーワード候補が含まれるドキュメントの数 (DF) def getCount(word, inputfile) text = File.open(inputfile).read() hit = text.include?(word) ? 1 : 0 return hit end def tf_idf(inputdir) tf, n = getTF(inputdir) df = getDF(inputdir, tf) tfidf ||= {} tfidf.default = 0 df.each {|word, count| i = tf[word] * Math.log(n / df[word]) tfidf[word] = i } return tfidf end def main(argv) indir = argv[0] outfile = argv[1] tfidf = tf_idf(indir) tfidf.reject! {|w, c| c <= 0 } ts = tfidf.to_a.sort {|a, b| b[1] <=> a[1] } ts.each {|w, c| puts "#{w} #{c}" } end main(ARGV)
実行結果
% ruby -Ku tf-idf.rb diary/2012 out.html nop 236.58737312781275 JPG 202.78917696669663 span 115.12925464970229 eax 90.12852309630962 NULL 67.5963923222322 Using 67.23527651431469 migemo 57.93976484762761 下田 39.14394658089878 固有名詞 36.841361487904734 edx 36.841361487904734 father 34.53877639491069 伊豆 32.23619130191664 ebp 31.191623125197538 drwxr 25.751006598945605 docstring 23.02585092994046 idx 22.532130774077405 leave 22.532130774077405 nil 20.873633484694086 光田 20.723265836946414 esp 19.408121055678468 quickml 19.313254949209202 css 18.420680743952367 ライカ 18.420680743952367 池上 18.420680743952367 マイクロソフト 18.420680743952367 彰 18.420680743952367 agent 18.420680743952367 ebx 18.420680743952367 Installing 18.021826694558577 gmake 17.577796618689757 マツダ 17.328679513998633 digi 16.11809565095832 おせん 16.094379124341003 Gemfile 14.484941211906902 checking 14.281959752685427 Dirty 13.815510557964275 KOZOS 13.815510557964275 Downloading 13.815510557964275 occupied 13.815510557964275 delete 13.815510557964275 パトリシア 13.815510557964275 xgcc 13.815510557964275 タミヤ 13.815510557964275 execinfo 12.875503299472802 yes 12.476649250079015 awesome 12.084735175349207 printf 11.78350206951907 英国 11.51292546497023 川澄 11.51292546497023 綾子 11.51292546497023 雅叙園 11.51292546497023 篠原 11.51292546497023 nbmake 11.51292546497023 日銀 11.51292546497023 nonword 11.51292546497023 明治 11.51292546497023 raise 11.51292546497023 statetab 11.51292546497023 熱海 11.51292546497023 specifiers 11.51292546497023 まりこ 11.51292546497023 鎌倉 11.51292546497023 :
- 川崎大師
- 細江
- 慎
- geek
- リアル
- 小林
- 幸子
- KOZOS
- 文教堂
- 溝の口
- UNIX
- バレンタイン
- Ku
- Mercurial
- TortoiseBzr
- Japanese
- mechanize
- Gmail
- ワザ
- すぎやま
- こういち
- 美菜子
- 豊崎
- 米澤
- 松崎
- しげる
- 浅川
- 悠
- 佐藤
- 聡美
- 日笠
- 陽子
- 知夏
- 永田
- 依子
- 伊藤
- 賢治
- 豪
- 真田
- アサ
- 祐三
- span
- 支倉
- LAN
- 戸根
- 池谷
- 裕二
- 岡本
- 浩一
- 池上
- 彰
- 篠原
- 太田
- 日銀
- 平凡社
- Word
- 竜一
- posttdiary
- accept
- crontab
- agent
- pass
- button
- body
- INFO
- headers
- 徳丸
- 浩
- tdairy
- munin
- allow
- Connected
- Escape
- irqstats
- quit
- Connection
- アッー
- ニコル
- オワコン
- IPA
- 青木
- begin
- Uconv
- rescue
- space
- elsif
- save
- LOGGING
- patterns
- iu
- raise
- ERB
- sprintf
- private
- setup
- split
- Status
- OK
- Content
- Cache
- cache
- Pragma
- machu
- Python
- ウハウハ
- nullpopopo
- SERVER
- group
- setsid
- ignore
- when
- which
- repeat
- like
- ALLOW
- ADDRESS
- END
- svr
- case
- ARGV
- STARNOSE
- みずほ
- サンジェルマン
- 多摩川
- 神奈川
- サザエさん
- 雅叙園
- 目黒
- マイクロソフト
- ops
- profiles
- testing
- approaches
- GUI
- lifecycle
- アジャイル
- Visual
- ビルト
- model
- Culture
- チャーン
- churn
- 智美
- 秋山
- 富士ゼロックス
- 鈴木
- 三紀
- 吉澤
- 西
- 康晴
- 電気通信大学
- 粉川
- 貴
- セガ
- 石畑
- 義文
- 多田
- 航
- COMBAT
- デプロイ
- 弘和
- 東大
- マネ
- 安竹
- 由起夫
- コベリティ
- Now
- IRC
- request
- dkdk
- hsbt
- リポジトリ
- pf
- Masashi
- シグマ
- 佐賀
- グスタフ
- Scheme
- 角川
- 正幸
- 平野
- 耕
- 信長
- Epilogue
- Ian
- Nmap
- Starting
- JST
- Host
- rDNS
- SERVICE
- unknown
- MAC
- seconds
- おせん
- 正太
- Amazon
- AMI
- Jean
- Migeon
- Rizzo
- openpan
- openssh
- NFS
- bugfixes
- openssl
- bind
- IPCOMP
- dhclient
- LZW
- It
- occupied
- bundle
- Fetching
- Using
- Installing
- RROR
- checking
- yes
- creating
- cpp
- NULL
- Gem
- Results
- bundler
- misc
- RUBY
- related
- certs
- Based
- before
- after
- Unpacked
- Successfully
- RubyGem
- Name
- Version
- lists
- handling
- tgz
- eventmachine
- THREAD
- 荒川
- development
- Your
- イワキ
- cvs
- 水戸黄門
- pex
- child
- spawnvpe
- NOWAITO
- undeclared
- spawnve
- libiberty
- WAIT
- endif
- distclean
- Jenkins
- cron
- 川口
- 玉川
- 竜司
- Linux
- Talk
- rotate
- ぁ
- printf
- start
- endef
- pushl
- ebp
- movl
- esp
- subl
- eax
- leave
- Shift
- Perl
- Bourne
- Baldur
- ヤバ
- rosso
- タモリ
- Flow
- 美崎
- 栄一郎
- 木村
- 英紀
- 川上
- 清
- 山田
- 御手洗
- 冨士夫
- キヤノン
- 経団連
- トヨタ
- 水島
- 一朗
- Andrew
- library
- format
- bootloader
- ports
- VUENOS
- ナムコ
- MIYAKEYUU
- DETUNE
- ヘナヘナ
- 渡辺
- 井上
- 拓
- 大久保
- 博
- push
- 順一
- 錦織
- 筒井
- xinstall
- lz
- binstall
- mkdir
- denied
- nbmake
- ERROR
- UAC
- specifiers
- rpcgen
- dependall
- realall
- tortoisehg
- tortoisegit
- zzz
- 東日本
- pylint
- command
- docstring
- method
- Report
- Statistics
- Messages
- category
- Global
- Duplication
- Raw
- checker
- examples
- pylintrc
- jenkins
- disable
- parseable
- reports
- Violations
- XML
- Source
- 新宿
- Zero
- Beginning
- eMIPS
- FFS
- SoC
- compiler
- tree
- daemon
- resume
- profiler
- send
- BETA
- gkgk
- スイープレコード
- Husemann
- Charles
- spawn
- GSoC
- 山本
- 貴志
- syscall
- ELF
- rump
- branch
- DIAGNOSTIC
- atf
- proper
- modular
- server
- apps
- fonts
- keyboard
- mouse
- vmware
- vesa
- fbdev
- compiled
- Module
- Driver
- ABI
- Fatal
- Please
- support
- vmmouse
- startx
- ナポリ
- タン
- 稲沢
- スミ
- 坂本
- 綾
- 鈴村
- 健一
- ttf
- fluxconf
- fluxter
- fluxbox
- keys
- lastwallpaper
- menu
- overlay
- slitlist
- windowmenu
- スクウェア
- エニックス
- 橋本
- 善久
- Yahoo
- Siegert
- ドイツ
- 河津
- rika
- Roodi
- Rufus
- Reek
- Flay
- smell
- SexpProcessor
- reek
- Unable
- ParseTree
- ZenTest
- NONE
- EUC
- SJIS
- reekdemo
- Dirty
- warnings
- flay
- pit
- Pit
- vim
- EDITOR
- python
- むほむ
- dwm
- awesome
- different
- replace
- インストールオワタ
- xinitrc
- endian
- superblock
- cylgrp
- ftp
- prompt
- old
- ブートローダー
- mdec
- Boot
- あぐり
- ガル
- retrying
- 深町
- 弥生
- hgignore
- username
- イケ
- create
- 迎
- 台北
- AnsBSD
- Opteron
- Enjoy
- Welcome
- AAAA
- DDb
- YDD
- AAAAAAAAA
- ADD
- DDP
- NNNA
- follows
- declaration
- deps
- directory
- gmake
- wip
- lexecinfo
- scons
- Waf
- libexecinfo
- lrwxr
- die
- ソフマップ
- hitomi
- スペイン
- 地中海
- 城内
- USB
- 成田
- 高尾
- 平間寺
- sinatra
- Gemfile
- Procfile
- foreman
- forema
- Thin
- Initialized
- heroku
- Rails
- Rack
- Creating
- cedar
- added
- remote
- Warning
- Enter
- Fetch
- Push
- HEAD
- Counting
- Delta
- Compressing
- Writing
- detected
- Running
- deployment
- extensions
- Cleaning
- types
- Default
- rake
- MB
- Heroku
- sample
- join
- Professional
- Preparing
- Downloading
- Failed
- temp
- Skipping
- Done
- SDK
- fetching
- Reader
- tiarra
- docs
- mikutter
- uim
- export
- setxkbmap
- GTK
- MODULE
- QT
- XMODIFIERS
- スンマセンスンマセンスンマセン
- rsync
- All
- depneds
- Java
- Ethernet
- TCP
- 攻
- ZFS
- NetApp
- Oracle
- ITpro
- Capsicum
- gihyo
- 技術評論社
- bsdinstall
- BSDIntall
- チューリング
- vicious
- widget
- datewidget
- lua
- Author
- Don
- available
- Previously
- backtrace
- Signed
- もくもく
- kozos
- オレオレ
- 坂井
- 松野
- 徳
- gdgd
- www
- Ricty
- ubuntu
- fontforge
- REVIEW
- MacType
- MS
- OPT
- License
- Generate
- Find
- Save
- While
- Remove
- Abnormal
- swap
- SHOW
- lh
- Device
- Priority
- ricty
- total
- cached
- Mem
- Swap
- Filesystem
- drwxr
- cfg
- 水野
- 和敏
- 日産
- サンマーク
- 安田
- 佳生
- マツダ
- 宮本
- 喜一
- クリス
- 杉井
- ジュリオ
- コス
- LoM
- 岡
- 森
- 読売旅行
- 芝
- あかり
- binutils
- gmp
- mpfr
- mpcomplex
- cloog
- cross
- bash
- xgcc
- Copyright
- warranty
- Reading
- specs
- COLLECT
- wrapper
- Target
- Configured
- libssp
- Thread
- single
- compilation
- conftest
- Shared
- onftest
- See
- txt
- NHK
- spam
- tdc
- comments
- д
- 崎元
- 仁
- リフレクション
- lazyload
- Qiita
- except
- components
- mymod
- foobar
- xDEADBEAF
- import
- moge
- チケットぴあ
- 韓国
- 中国
- 美好
- SoftwareDesign
- 吉野家
- markov
- MAXGEN
- nonword
- statetab
- STDIN
- suf
- break
- 盛
- MAZDA
- RX
- 湘南
- ギア
- SKYACTIV
- anonymous
- PSN
- Fryght
- fstab
- kernfs
- ptyfs
- procfs
- noauta
- reboot
- Docs
- 日比谷公園
- 日比谷
- Express
- aa
- tsutsui
- 土屋
- 守
- GEM
- 寺田
- 好文
- 小泉
- 武夫
- TV
- 村瀬
- 孝
- 林
- 正儀
- 花王
- 高井
- 尚之
- ヨーロッパ
- ジャン
- 内田
- 鎌倉
- 昭和
- 大正
- 柴田
- 泉
- 明治
- 小沢
- 朝江
- 松林
- 光男
- 渡部
- 弘
- キシ
- clone
- Cloning
- refs
- fatal
- Receiving
- Resolving
- proxy
- Inspiron
- 生田
- 向ヶ丘
- フランス
- ミッテラン
- 紀宮
- 清子
- ミチコ
- 島内
- 剛一
- 野下
- 浩平
- 伏見
- 正則
- 有沢
- 誠
- 浜田
- 穂積
- typedef
- struct
- static
- idx
- father
- insert
- delete
- attr
- right
- nil
- digi
- 沖縄
- 波照間
- Redmine
- Backlogs
- HTTP
- RAILS
- production
- Updating
- DevKit
- instructions
- Kit
- Development
- migrate
- redmine
- STOP
- START
- コピペ
- settings
- ナカ
- Machine
- enviroment
- disassemble
- Disassembly
- nop
- edx
- ebx
- 薩摩
- パトリシア
- chckbit
- Patricia
- 日経
- 開成
- アニソン
- ゼット
- CMakeLists
- ウェブオペレーション
- ロシア
- foo
- memset
- sigaction
- execinfo
- zero
- zsh
- 池田
- 秀一
- deinstall
- lenna
- レナ
- PGM
- nkf
- pgm
- 米国
- NISP
- taken
- tured
- VIP
- たちばな
- 南武線
- gif
- ミサワ
- VMWare
- ggrks
- VMware
- kzload
- 千里山
- JPEG
- 田中
- 和彦
- 中村
- 聡
- 齋藤
- 幸一
- 正能
- 古賀
- 邦正
- 秋葉原
- 太平山
- ヨドバシカメラ
- タミヤ
- brightness
- contrast
- gamma
- abcd
- ぇ
- 都響
- JNUG
- 東京大学
- 本郷
- 武田
- 小畑
- 後藤
- 清原
- たけお
- ドライバ
- フォロワー
- following
- BAT
- まどか
- マギカ
- itoa
- stdlib
- diff
- double
- Pi
- Embedded
- 理沙
- 栗林
- みな
- eject
- 川澄
- 綾子
- ビクター
- ラーゼフォン
- 紫
- 恵
- Primary
- 宇多田
- 沖本
- 忠久
- show
- 毎日放送
- アフリカ
- オーストラリア
- 関西テレビ
- 大阪
- tyoro
- 鈴鹿
- プリキュアコード
- 祥
- 押上
- pkglint
- Can
- BEGIN
- updated
- 平成
- Tumblr
- message
- fileName
- lineNumber
- fn
- postForm
- switch
- throw
- default
- リダイレクト
- Photo
- Large
- Request
- resource
- does
- httpd
- ゴーヤー
- writer
- bool
- const
- values
- bos
- eos
- eon
- CHECK
- Tech
- テックビレッジ
- CQ
- しまむら
- input
- 固有名詞
- cloud
- csv
- ノーマルチャージ
- ノーマルチャージU
- ノーマルチャージB
- Seaside Route765
- Seaside Route765 R
- Rave City Riverfront
- Rave City Riverfront R
- ABEILLE
- BAYONET
- BISONTE
- CENTELLE
- EO
- ESPERANZA
- FATALITA
- userdic
- dic
- mecab
- words
- lines
- count
- contents
- css
- font
- level
- EOS
- max
- factor
- tagcloud
- tags
- analyzed
- infile
- outfile
- Downtown Rave City R
- Lost Ruins
- Midtown Parkway
- Island Circle R
- Crossbay Tunnel R
- Airport Lap
- Midtown Parkway R
- Lost Ruins R
- STAGE0
- Old Central
- Laketop Parkway
- PROPHETIE
- Sunset Heights
- Crossbay Tunnel
- Surfside Resort
- JUJAK
- WILDGANG
- RC410
- Old Central R
- Sunset Heights R
- MELTFIRE
- Downtown Rave City
- Seacrest District
- ROLLING THUNDER
- Shadow Caves R
- HIJACK
- FIERA
- Lakeshore Drive R
- Bayside Freeway
- Southbay Docks R
- DRUAGA
- Aviator Loop R
- Aviator Loop
- ダイナミック
- Harborline 765
- Island Circle
- iTS
- NAMCO
- RIDGE
- Limit
- might
- quickml
- Making
- messages
- chmod
- ctl
- PATCHFILES
- extra
- Data
- fetch
- Package
- マリオ
- 野村
- 辻
- 田代
- 中瀬
- まゆみ
- 英国
- 章夫
- イタリア
- 巌谷
- 国士
- 末次
- 忠司
- いのうえ
- ARNING
- GNU
- common
- MAINTAINER
- HOMEPAGE
- tests
- dict
- jcode
- migemo
- exception
- ecc
- MigemoStaticDict
- range
- gets
- unless
- offset
- length
- String
- bytesize
- ChangeLog
- string
- トン
- Alice
- PSP
- PSPPDF
- HTML
- URI
- COMMON
- 東急
- TroubadourRedord
- nice
- CPU
- GRAPEFRUIT
- Samurai
- 品川
- 伊豆
- 下田
- 静岡
- List
- ウィキ
- GM
- habusan
- xperia
- オモシロ
- 熱海
- 伊東
- ペリー
- サク
- JPG
- バーガー
- 優香
- long
- external
- gitignore
- htpasswd
- coverage
- rdoc
- rdf
- rspec
- From
- Already
- Merino
- sysupgrade
- sysbuild
- CVS
- distribution
- UCC
- 上島
- ffs
- GENERIC
- userland
- installmodules
- echo
- shutdown
- sets
- pax
- etcupdate
- 菅野
- よう子
- 小諸
- 西浦
- なつ
- 田村
- ゆかり
- megtan
- とも子
- 神尾
- 京急川崎
- 北海道
- Beer
- BBQ
- サントリーホール
- ANA
- エルフ
- モーツァルト
- ベートーヴェン
- 堀井
- 雄二
- ライアン
- マーニャ
- 有隣堂
- AutomaticLoginEnable
- AutomaticLogin
- capistrano
- role
- task
- hw
- servers
- 正時
- ロミオ
- ライカ
- パリ
- 藤田
- まりこ
- シャープ
- 誠治
- 有川
- 桑田
- 真澄
- 古井
- 貞
- 谷岡
- 久美
- 渋谷
- FF
- 天野
- 喜孝
- 吉田
- 明彦
- ファンタジー
- shared
- releases
- deploy
- drwxrwxr
- Capfile
- ソード
- アート
- Sanmoku
- Gomoku
- bat
- Buildfile
- xml
- classes
- defaulti
- builds
- dicdata
- jar
- BUILD
- sile
- eclipse
- sanmoku
- TwitterIRCGateway
- xAuth
- fav
- gig
- trap
- foreground
- Process
- Dir
- STDOUT
- STDERR
- yield
- exit
- cmd
- PTY
- dst
- passwd
- 信州
- ハテナ
- ワールドカップ
- Bee
- イラク
- 光田
- 康
- 千住
- 足立
- 健二
- ユリ
- 毛利
- 嘉孝
- 神永
- 大輔
- SUPER
- バルカン半島
- バリ島
- フィンランド
- ブラジル
- ブルガリア
- オト
- SFC
- ビートルズ
- アメリカ大使館
- アナザー
- CHRONO
- Pain
- 岡島
- 俊治
- 羽田空港
- ldconfig
- Invalid
- opencv
- Android
- Uri
- Intent
- startActivity
- immediate
- インド
- daresore
- pixy
- mixi
- 富士
- CYGWIN
- Cygwin
- ctionary
- libtool
- DNOMINMAX
- ipadic
- sshd
- cygrunsrv
- capability
- privileged
- LocalSystem
- account
- special
- sure
- permissions
- automatically
- localhost
- ECDSA
- Are
- ウォール
- 博多
- グダグダ
- EX
- ミラー
- WORKS
- ナツゲーミュージアム
- BLUEOGRE
- 竜田
- 信人
- 大明
- ワロタ
- OFF
- 平田
- kengo
- hash
- java
- HashMap
- 暁美
- ArrayList
- System
- HashMapTest
- Age
[ツッコミを入れる]