VerySource

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1525|回复: 6

请教汉字编码的问题

[复制链接]

1

主题

2

帖子

3.00

积分

新手上路

Rank: 1

积分
3.00
发表于 2020-1-13 11:20:01 | 显示全部楼层 |阅读模式
请教各位,在http协议里面(抓取的网络数据),汉字是怎样编码的?我查了些资料,有的说是用unicode,但我对照了一下,发现不是的,请问在http协议里到底是怎样的编码方式?谢谢!
回复

使用道具 举报

0

主题

13

帖子

9.00

积分

新手上路

Rank: 1

积分
9.00
发表于 2020-1-17 19:54:01 | 显示全部楼层
你说的是URL的编码还是form data的编码?前者就是类似%C3%A0****之类的编码,我觉得只是把二进制数据转换成可见字符,不一定有转换编码在里面。参考:
http://web.dd81.com/club/viewthread.php?tid=68144&fpage=1&highlight=

回复

使用道具 举报

1

主题

2

帖子

3.00

积分

新手上路

Rank: 1

积分
3.00
 楼主| 发表于 2020-1-18 17:27:01 | 显示全部楼层
谢谢您的回复。
我说的不是url编码,也不是form data的编码,而是http数据(网络数据包)中的编码。

比如,"测试" 这两个汉字,在http数据包中是怎样的编码?



回复

使用道具 举报

0

主题

13

帖子

9.00

积分

新手上路

Rank: 1

积分
9.00
发表于 2020-1-19 20:18:01 | 显示全部楼层
(以下只是我的了解啊,错了别怪我,只是给你一些参考。如果有错误不要说我误导,有疑问可以试验一下)

http协议里面有可能有编码的也就URL和FORM Data两部分。
前者在GET命令中会出现,后者在POST命令中会出现。
我记得处理POST数据时读到一个CONTENT_LENGTH后紧接着可以读该长度的DATA。根据这点来看,数据无需额外编码,换句话说此时HTTP协议本身没有对数据编码,原来是什么编码传到服务器端就是什么编码。

你可以分析一下得到的POST数据,根据GB2312、Unicode这些编码的特性,基本上可以知道使用的是哪种中文编码。
回复

使用道具 举报

0

主题

2

帖子

3.00

积分

新手上路

Rank: 1

积分
3.00
发表于 2020-1-23 01:00:02 | 显示全部楼层
乱解!
回复

使用道具 举报

1

主题

9

帖子

10.00

积分

新手上路

Rank: 1

积分
10.00
发表于 2020-1-25 21:09:01 | 显示全部楼层
http的默认编码是utf8
回复

使用道具 举报

0

主题

1

帖子

2.00

积分

新手上路

Rank: 1

积分
2.00
发表于 2020-8-29 22:00:01 | 显示全部楼层
貌似不是UTF8的。应该是ANSI编码。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|CopyRight © 2008-2023|verysource.com ( 京ICP备17048824号-1 )

快速回复 返回顶部 返回列表