wv is a library which allows access to Microsoft Word files. It can load and parse Word 2000, 97, 95 and 6 file formats.
MS WordのファイルをHTMLなどに変換
どの位つかえるものだろうか。
インストールしてみました。
- HTMLはUTF-8で書き出され、日本語もきちんと表示できます
- 「見出し」「段落」などのスタイル名がdiv要素のname属性に使われる際に文字化けするよう
- 画像ファイルはpngに変換され、ファイル名+連番という形で保存されます
- 凝ったレイアウトをしなければいいかんじ
- 表はテーブルに変換してくれるがちょい微妙
- Word 6.0/95 という形式で保存したものを変換するのがいい感じ
- HTMLになっちまえばどうにかパースしてどうにかできると思うのでどうにかする