青空昆布Ver1.5公開
久しぶりに青空文庫のファイルを変換してみてビックリ。エラーが出て止まるじゃないですか。
エラーメッセージをみてさらにビックリ。
ShiftJisの文章がLatin1と区別が付いてない!(Latin1の文章はOK)
という訳で、今回の更新は
・ShiftJisの文章が変換できない不具合の修正。
結局、一度文字コード判別させて、失敗したらもう一回S-Jisだけで判定させてみることに。
・コマンドライン出力に変換中の文章を何の文字コードと判別したかを表示。
未対応文字コードの時はascii扱いになったりするので判ります。
となっています。
詳しい使い方はReadmeをご覧ください。
なお、不具合報告や感想などお待ちしています。
今回の不具合にしても、報告があれば、もっと対応が早かったんですけどね……。
« 「ボーンズ&カーズ」Ver1.2.13公開 | トップページ | HTMLでログ公開!Ver20100210公開 »
「青空昆布(aozoraconv.pl)」カテゴリの記事
- 青空昆布Ver1.9公開(2010.08.28)
- 青空昆布Ver1.8公開(2010.07.08)
- 青空昆布Ver1.7公開(2010.06.08)
- 青空昆布Ver1.6公開(2010.03.12)
- 青空昆布Ver1.5公開(2010.02.09)
コメント
この記事へのコメントは終了しました。
« 「ボーンズ&カーズ」Ver1.2.13公開 | トップページ | HTMLでログ公開!Ver20100210公開 »
PSPのブラウザでテキストを読む際、「▽」を押していくのが不便で、青空昆布は「○」でページ送りが出来るという機能に惹かれ、さっそく使用してみました。結果、読むのがとても楽になりました。目にもやさしい配色で快適に読書できます。とても便利なツールをありがとうございます。
ただいくつかのテキストファイルで、変換するとhtmlの文字が文字化けしている場合があるのですが、メモ帳のテキストを文字コードANSI(Shift-JIS)をUTE-8に変換して青空昆布で変換すると文字化けしないでhtmlになります。その際、先頭の文章に「?」がついてきます。
perlとか全くわからないのでなにがいけないのかわからず唸っています。
投稿: key | 2010年3月12日 (金) 13時25分
ご愛用ありがとうございます。
色設定を弄るのは簡単なので、是非気に入ったコーディネートが出来たら教えてください。
>ただいくつかのテキストファイルで、変換するとhtmlの文字が文字化けしている場合がある
実際に、そのテキストを見てみないと確かなことは言えませんが、ShiftJisにもいくつか「方言」があるんです。
おそらく、その方言の一つで書かれていて拡張された文字が使われているのではないでしょうか?
例えば「ローマ数字(IIIとかIVとか)」が一文字になったような奴や○の中に数字が入っているものなんかがそうだったはずです。
もしも青空文庫のテキストだった場合は、「そのテキストがどれか」を教えて貰えると対処できるかも知れません。
# おそらくCP932だろうなとは思うのですが、今度は「全角チルダ、波ダッシュ問題」が邪魔なんですよねw
>先頭の文章に「?」がついてきます。
メモ帳で変換すると「?」がつくのは「文章の最初の行」だけで「行の頭」でしょうか?
もしもそうならBOMの問題でしょうかね。
メモ帳じゃなくて、適当なテキストエディタで変換すると直るかも知れません。
私は「サクラエディタ」( http://sakura-editor.sourceforge.net/ )を愛用していますが、このエディタは拡張子ごとに色設定なんかを弄れて面白いですよ。
投稿: Facelesss | 2010年3月12日 (金) 16時23分
さっそくのご返信ありがとうございます。
「?」がつくのは青空昆布で変換したhtmlです。文章の最初のタイトルの前にだけ「?」がひとつ付きます。青空文庫のテキストではないweb小説をコピペしたものです。
試しにサクラエディタで保存したらきちんと青空昆布で変換されました。これからはこちらで保存していこうと思います。
投稿: key | 2010年3月13日 (土) 11時23分
htmlに変換して文字化けしたのは「丸数字」と「波線」でした。
丸数字をやめて、波線は「下がって上がる形」に置換してUTE-8で保存したテキストを青空昆布で変換しています。htmlの波線は「上がって下がる形」で表示されました。
page0000.htmlの「行の頭」に「?」がついてきます。
「全角チルダ、波ダッシュ問題」、検索しました。文字化けについて色々知ることができました。む、難しい。
投稿: key | 2010年3月14日 (日) 21時56分
UTF-8とCP932のマッピング問題は「どっちが間違ってる」と断定しにくいのがまた難問ですよねw
ともあれ、Ver1.6を公開しましたので、是非お試しください。
不具合があったら、また是非お知らせくださいねw
投稿: Facelesss | 2010年3月15日 (月) 09時19分