VC/MFC
VB
Delphi
C++ Builder
C/C++
Java
.NET技术
MS-SQL Server
PowerBuilder
DB2
Oracle
Web 开发
Linux/Unix社区
硬件/嵌入开发
移动平台
您的位置:
程序门
->
java
-> j2se / 基础类
pdfbox提取pdf文本,如果pdf中的字体本地没有,出现乱码
[
收藏此页
] [
打印本页
]选择字色:
默认
灰色
红色
黄色
绿色
橙色
紫色
蓝色
褐色
墨绿
深蓝
赭石
粉绿
淡绿
黄灰
翠绿
综红
砖红
淡蓝
暗红
玫瑰红
紫红
桔黄
军黄
烟灰
深灰
灰蓝
背景色:
默认
黑色
红色
黄色
绿色
橙色
紫色
蓝色
褐色
墨绿
深蓝
赭石
粉绿
淡绿
黄灰
翠绿
综红
砖红
淡蓝
暗红
玫瑰红
紫红
桔黄
军黄
烟灰
深灰
灰蓝
字体:[
大
][
中
][
小
]
pdfbox提取pdf文本,如果pdf中的字体本地没有,出现乱码
发表于:
2007-03-26 15:41:49
楼主
pdfbox提取pdf文本,如果pdf中的字体本地没有,出现乱码。
我写了个简单的代码,从pdf文件中取得 文本。传入不同的pdf文件发现有的可以正确显示,有的显示乱码,我用的是pdfbox 0.73版,而且所有的pdf都是英文的内容。
有的是同1个文件中一部分是乱码,一部分正常显示,所以我觉得是因为有些文本的字体本地没有,导致用gettext()方法时,返回的是乱码。
代码大致如下:
pddocument doc=pddocumet.load( "c:\\test.pdf ");
pdftextstripper stripper=new pdftextstripper ();
string text=stripper.gettext(doc);
运行后text变量中有可能包括一部分是正常显示的字符,一部分是乱码
请问这种现象是不是因为字体的原因?如果是,有没有办法在调用gettext()之前,将pdf中本地没有的字体替换成本地有的,这样再调用gettext()应该可以正确显示。
或者有其他方法解决????
发表于:
2007-03-26 15:47:13
1
楼 得分:
0
up
发表于:
2007-03-26 19:09:41
2
楼 得分:
0
字体的原因是出现方框,你这应该是编码格式不统一吧~~或者读出来的时候就已经是乱码了,转码看看
发表于:
2007-03-27 09:01:13
3
楼 得分:
0
和我联系easypdf@gmail.com
发表于:
2007-03-27 09:25:48
4
楼 得分:
0
lixiaoxue85(蛮野蛮) ( ) 信誉:97 blog 2007-3-26 19:09:41 得分: 0
字体的原因是出现方框
我的就是一部分字是方框,而且编码格式我试过了,怎么转也没用,而且我也不知道他以前的编码格式是什么
发表于:
2007-03-27 12:53:53
5
楼 得分:
0
关注一下
发表于:
2007-03-27 21:19:38
6
楼 得分:
0
关注一下
继续
发表于:
2007-07-18 17:26:10
7
楼 得分:
0
关注一下,
我试验了extracttext程序
有resource目录,可是没有作用
cmap下明明有identity-v的,可总是认为unknown encoding
发表于:
2007-07-25 11:50:36
8
楼 得分:
0
谢谢各位关注
这个问题自从上次留帖后不久就没做了,最近有时间继续搞...
我用的pdf 是南美国家一个公司的文件,发现这个文档里的字符编码根本和我们的不一样,比如说字符 "m " 它的字节码是 01, 提出来转成char时,java 用unicode 编码得到的就是个 特殊字符,也就是乱码.
发表于:
2007-07-27 11:58:52
9
楼 得分:
0
可能lz的pdf中那个并不是标准的英文字符,而是扩展的欧洲国家的某种语言,所以字节码看起来是ascii的,但其实不是英文字母
发表于:
2007-07-27 11:59:09
10
楼 得分:
0
建议使用xpdf试一下
发表于:
2007-07-31 17:15:29
11
楼 得分:
0
出来转成char时,java 用unicode 编码
看看encoding是什么,不一定是unicode编码啊
下一篇:
高手赐教,一个关于交换数组元素的算法,用java描述
上一篇:
求救!!!作业题,各位大大帮忙
相关文章
连续灌了几天,终于3个裤衩了,:)
转:
struts的问题,希望用过的人进来看看,我表达不清...
struts2.0交流
求jsp页面跳转代码,急!
为什么两个缺省类可以写在一个.java文件下?
对象序列化后通过网络传输的问题
工作流引擎 shark 1.0或1.1的版本在哪...
项目外包,会做网站和程序的来
java 怎么遍历ftp目录下的所有目录以及文件...
如何一次插入多条数据,在线等,立刻给分
將table數據導出文件excel(新改)
java关于接口暴露问题的解决思路
为什么我在点击<a href="http://localho...
eclipes中的一个问题,求解!!!
xml 外部dtd ...
·网页问题,有一个table包含在一个容器里,当tab...
闲来无聊,发几个笑话!顶起来!(看不懂的话,就...
求一本java好书!!!!!!!
技术参股问题
其他资讯
请问大家觉得 java方向好找工作还是 ....
请教:linux下如何得到本机实际ip?
请教一个 myeclipse 新建立 jsp&...
招我进来时,明明说是每月工资给3800,可以等到发...
spring简单实例遇到的问题?
有没有j2me的案件方面的书推荐
manifest.mf 是干什么用的? 通过ecli...
用过resin的请进
这个div怎么用js的innerhtml无法添加上多行呢??...
cachedrowset 更新结果集????
jar export finished with ...
j2me中一小段image缩小的算法看不懂,帮忙解释下...
高手救命啊!都是概念
中国开源项目发布ecc 0.4 technology&...
关于tomcat启动时 抛的sql异常问题。
使用java communications api访问串口...
除了用加密锁外,还有什么好办法对java开发的程序...
网页无内容
有关于如何用java做一个类似水晶报表工具(cryst...
javareg.exe
快速检索
分类导航标签a
产品/厂家程序员大本营
DelphiGAME
Delphi网络通信/分布式开发
Web 开发非技术区
Java安全专题
社区支持公告
产品/厂家英特尔信息技术峰会
多媒体/设计/Flash/Silverlight 开发多媒体设计(3DMaX
企业开发WebLogic
Web 开发非技术区
硬件/嵌入开发VxWorks开发
专题开发/技术/项目网络通信
Oracle高级技术
其他数据库开发数据仓库
WebSphereWebService
最新资讯
寻找可以直接在液晶电视上的usb口接上“硬盘”就...
100分求助, 关于struts2的properties文件中...
欢迎杭州的程序员加入这个群—43276029
请问大家这个水晶报表的格式应该怎么做?(内有图...
5d5l.com欢迎大家加入到模块开发的阵营中。。。。...
eclipse和netbeans比较,哪个好呢???
怎样将用户在前台页面中的操作写入一张数据表中呢...
怎样在两个非模态对话框中轮换画图?
※※※ 周 末 散 分&...
回答这个问题,就给 50 元。
搞web开发,现阶段学习struts好,还是spring好?
关于pid的一个小问题,
又见改错
向大家请教vc中几种类型转换和xml数据处理问题
pd反向oracle9i数据库,太长的存储过程为何被截断...
mysql 3中日志文件的区别
请教一个思路,我想把窗体中用到的所有api函数全...
一个高难度的sql,谁要是写出来了我把我所有的分...
我想在edit编辑框中只能输入(a-z,a-z,_)过滤...
为什么sql2005附加一次数据库后就不能使用文件形...
比较难搞的sql语句(寻求好的解决方案)
filesearch 或 api:searchpath如何搜索...
急 ???new system.net.networkcred...
到底循环几次呢?
oracle数据库,插入和读取均为乱码的问题,请大家...
班竹,我的贴只有我自己回复了怎么结贴啊
急急急,关于webbrowsers的问题
我用opengl画了一个机器人手臂,,出现了问题
sql解析算法
菜鸟一只,大家帮忙!!!!!!很简单的问题!
请高手相助: mmap 使用问题,程序执行...
ad问题咨询
奇怪的sql语句错误
查看端口信息
◆问题:一个程序启动会导致另一个程序自动关闭◆...
求助:linux2.6在ixp425平台上移植时time_init函数...
为什么delete指针成员变量后程序运行出错?
graphicspath与region的问题
vb里面怎么实现模拟键盘按键,如模拟按住"ctrl"键...
五一散分``
热门点击
如何得到struct的指针???
关于用timer读取com口232信息时关闭应用程序时错...
对于java中继承机制应该怎样理解?
在java中一个文件中为什么只有一个public类...
页面关闭问题大侠们来帮帮忙
进程控制问题,求达人指教
关于向数据库增加数据问题
哪有像酒店的xp系统那样,先选语言再进入系统的w...
有一台linux 服务器, &n...
!!!!!!!!!有谁有张孝祥javascript教程视...
对中国象棋有兴趣的请进来
一个80后前途问题
struts 中 中文乱码问题 (...
用text保存图像的疑难!!!!快来看看
不想用过多的话诅咒那些已经不再算人的人了,也不...
测试服务器对客户端的响应速度  ...
+++有使用硬件防火墙的请进!请大家推荐一下牌子...
还是来到php,使用过svnmanager兄弟请指导下。
关于时间函数的问题、请各位指教
用new分配的数组和[]定义的数组有什么不同呢?
内存组织的困惑
dhtml edit control符不符合xhtm规范?...
对一下感兴趣请进!!
如何使combbox有记忆功能?
急!!!!!!!!!!!!!!c#和c#.net是不是一回事啊
谢谢大家了,谁有java毕业设计方面的资料..分不够...
做ppt时,插入的图片在第二次打开是一个大的&nbs...
current catalog 属性是只读的?请问是...
谁能帮我解析时间串? 在线等
全国首家软件逆向工程师培训
电子商务网站 数据库访问 架构设计问题...
在客户端如何判断sql服务器是否启动?如何以编程方...
(急)一个关于listbox的简单问题!为什么移除不掉...
潇洒老乌龟恭祝各位新年快乐!
c#2005+ado.net 如何操作sybase数据库?
如何让管理中的sql server代理随着sql ...
如何不编程实现屏幕抓取功能?
如何用不同的身份运行程序
求助一条linux下at&t的汇编语句
jsp如何实现在页面重定向之前弹出一个对话框?