アーカイブ

2008 年 11 月 のアーカイブ

[サービス]Word,Excel,PowerPointのファイルデータをテキスト化する

2008 年 11 月 5 日 コメントはありません

便利なフリーソフトを見つけたので紹介。

その名もxdoc2txt
xdoc2txt:http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html#overview

このソフトはワード、エクセル、パワポのファイルからテキストだけを取り出し、テキストファイルにしてくれるというもの。
上記のリンクを見てもらえればわかるが、PDFや一太郎もテキスト化できる。
すばらしい!!
【使い方】
1、まず上記のリンクからxdoc2txt.zipをダウンロードする。(2008/11/5時点での最新版は1.31)
2、ダウンロードしたファイルを解凍し、解凍したフォルダの中身を全てコピーしC:\Windowsとかにおく。(パスが通っているため)
3、コマンドプロンプトに

xdoc2txt 変換したいファイル名 > 出力ファイル名

と入力する。

すると出力ファイル名に指定したファイルにテキスト化されたデータが入っている。
パワポのスライドのテキストをNgram化して全文検索したいときとかに便利!!
個人の利用ではフリーらしいです。詳しくはリンク内を参照。
カテゴリー: サービス タグ:

[PHP]日本語の文字列を綺麗に抜き出す

2008 年 11 月 5 日 コメントはありません

今回はPHPの文字列操作ではまったネタをメモ。

文字列から数文字抜き出す時に、2バイト文字(日本語)を1バイトで抜き出してしまうという問題。

結論から言うとmb_substrの前にmb_language,mb_internal_encodingを指定してあげると綺麗に抜き出せるらしい。

  1.  //文字コード設定
  2.  mb_language("Japanese");
  3.  
  4.  mb_internal_encoding("EUC");
  5.  $str = "ほげほげhogehogeうほうほuhouho";
  6.  
  7.  //最初から10文字を切り抜く
  8.  $str = mb_substr($str,"0","10");
  9.  echo $str;</td>

出力結果は以下

  1.  // 結果
  2.  ほげほげhogeho

となる。

mb関連の関数は勝手にマルチバイトに対応してくれると思ったら、そうでもなかったというオチ。

設定ファイルとアプリケーションの内部エンコーディングが同じだったら追加する必要はないかも。

カテゴリー: php タグ: ,
Get Adobe Flash player