阅读:1291723回复:821
获取QQ数据包 截获QQ聊天记录
首先,你需要安装有VPC,这样你才能运行PC版的QQ。其次,你要有你机器root用户的权限。 然后,你启动VPC,注意先不要登录QQ。 打开终端窗口。输入su命令,在提示里面输入root用户密码,进入root用户。这时候提示符应该是个#号。 以root身份运行终端命令: tcpdump -w dump.dat -s 0 udp 这个命令的作用是把网络上传输的数据截获下来。 -w dump.dat 意思是把输出存到dump.dat文件下。 -s 0 是指定保存完整的包,如果指定一个非零的数值,那么将会保存这个数值的长度。 udp 是指只保存UDP协议的数据(腾讯文字通讯所采用的协议)。 (你有PC的话,也可以使用windump来截获你PC上的QQ的数据包。windump是windows下的命令行程序,它的使用参数和tcpdump完全一样。)。 然后我们启动VPC里面的QQ,执行我们所想要研究的有关操作。完成以后,会到终端窗口,按ctrl-c中断tcpdump的运行。这时,在当前目录下就有dump.dat了。 然后,可以用hexedit打开这个文件,观察一下我们dump的结果。 里面是连接着的数据,是按照“QQ包->UDP包->IP包->链路层封装->tcpdump的文件格式”的层次结构进行封装的。 下面是一个数据片段: 0008: A1 B2 C3 D4 00 02 00 04 Tcpdump文件格式: 首先我们看到的是最外面的一张包装纸:tcpdump的文件格式。它的格式是这样的(详细的描述可以参考:libpcap-format的资料): 文件头 | 数据包头 | 链路层数据 | 数据包头 |链路层数据| .... 首先,每个文件以一个24字节长的文件头开头,我们需要知道的是最前面的四个字节是:A1 B2 C3 D4,如果不是这个标识,那么就不是tcpdump生成的数据文件(如果是PC上的windump生成的文件,那么则是D4 C3 B2 A1,以表明PC上的endian不同,我们这里不用关心这个区别)。 跳过这24个字节,下面就是以“数据包头|链路层数据”为一组的这样一组组的数据。数据包头不是网络上真正传输的数据,它包含的信息主要是截获这个包的时间等信息。它的长度16个字节。我们关心的是第8-11和9-15字节(我们按编程的习惯,把第一个字节称为第0字节,下同)。前者表明后面的链路层数据包在文件里面的长度,后者表明它的实际长度。两者可能不同是因为可能存在截断的情况。由于我们使用了-s 0参数,所以他们应该是相同的。从数据包头结束,到长度指明的字节数为止,是实际在网络中传输的链路层数据包。然后,就是下一个数据包头。这样,我们就可以逐个把tcpdump文件的封装去掉,获得一个一个实际在网络中传输的数据包了。例如,我们忽略文件头,从第24字节开始的3F 44 32 28 ...就是数据包,数据包的第8-11字节:00 00 00 96就是这个后面数据链路层数据包的长度。也就是说,从40字节开始00 06 25 60...的150(0x96的转换成10进制)个字节就是实际网络传输的链路层数据包。然后,我们在第190(40+150)字节的位置又看到了3F 44 32 29...的下一个数据包头。 我们这样就获得了一个个的链路层数据包。我们上面例子中的第一个是: 0000: 00 06 25 60 F4 C0 00 03 链路层数据包: 下面我们要撕去链路层数据包这个第二层包装纸。链路层数据包格式是和传输的方式有关的:如果我们是在局域网里面共享上网,那么一般是用称为RFC894以太网协议,少数情况下也会是RFC 1042的802.3协议。如果你用Modem拨号上网,那么可能会是RFC 1055的SLIP协议,如果是用ADSL,那么将会是RFC 1548的PPP协议。 链路层数据对我们来说意义不大,我们要做的是剥去这层包装纸而已。 RFC894/RFC1042/RFC 1548: 这三种协议的形式都是: 对RFC894,包头是14字节;RFC1042,包头是22字节;RFC 1548,包头是5个字节。我们跨过这些字节,就是IP包的数据了。包尾如何并不要紧,因为IP包的内容本身会告诉我们它的长度。 在上面的链路层数据包中,我们跳过14个字节,第14字节以45 00 00 88开始的就是IP包的数据。其它的协议也可以这样处理。 RFC 1055: IP数据包被封装在一对的0xc0字符中间。但是,由于数据包中间就不能有0xc0字符,所以原来的0xc0字符被其它代替了,我们要把它还原。方法是搜索这个数据包,把0xdb 0xdc转换为0xc0;0xdb 0xdd转换为0xdb。比较麻烦,所以,最后不要使用它来截取数据。 IP包的第2-3字节是它的长度,上面我们看到的第14字节开始的IP包,它的长度就是00 88。也就是136个字节。所以,从14字节开始的136个字节就是IP数据包。这样,我们就剥去了链路层的包装纸,获取了IP包。 我们上面的例子的第一个IP包是: 0000: 45 00 00 88 8E 53 00 00 IP包 IP包是网络上传送的与传输线路无关的数据包,也是我们开始需要真正关心的数据。IP包的格式是: IP包头|IP包数据(我们这里就是UDP数据包) IP包头,除了我们刚才说的包长度(第2-3字节)以外,还有几个重要的信息是我们所需要关心的: 第12-15和第16-19分别为源和目的IP地址。它用四个字节来代表一个IP地址,把每个字节转换成十进制,就是我们熟悉的IP地址。比如,上面的源IP地址:C0 A8 01 66就是192.168.1.102,这是我局域网的IP地址,所以,这是一个从我的机器上发出的包。目的地址是CA 68 81 FD就是202.104.129.253。从后面我们对QQ数据包的了解我们知道这是一个发往服务器的包,所以我们就获得了一个QQ服务器的IP地址。(注意,并不是全部发出的包都是发往服务器的!) 如果,找到一个原来不知道的服务器,那么是一个很重要的发现。 第0个字节,高4位为IP的版本号,低四位为IP包头的长度。比如说,我们上面的数据包第一个字节为45,它的高4位为4,表明它是我们通常所说的IPv4协议,低四位为5,表明IP包头的长度为5X4=20字节(头的长度是以四字节为单位的)。这样表明从第20字节开始就是IP包的数据部分,也就是UDP包的内容了。这样我们可以剥离出UDP包: 0000: C2 34 1F 40 00 74 C3 AD UDP包 UDP包是多数即时通讯软件采用的协议。它的格式是: UDP包头|UDP包数据(这里就是腾讯QQ协议包) UDP包头是固定8个字节。 第0-1字节是源端口号,第2-3是目的端口号。一般,我们客户端的端口号可以随便选取(有资料说是4000,但是实际发现,新版的QQ已经是随便选取,没有限制了)。从上面的UDP包,我们从以前IP包的信息知道是我们发送出去数据包,所以目的端口号就是服务器所使用的端口号。这里是1F 40,也就是8000号端口,目前还没有发现使用其他端口的,所以,如果发现有服务器使用其他端口,也将是一个很重要的信息。 第4-5字节是UDP包的长度,这不是很重要,但是也可以用它来检验一下我们的剥离过程有没有错误。 我们去除掉头8个字节,剩下的就是QQ协议包了: 0000: 02 08 16 00 22 00 10 01 我们有一个命令行小工具showUDP,可以从tcpdump截取的文件中,直接显示其中UDP包的内容。 QQ协议包 QQ协议包的构成是: QQ协议包头|QQ命令包|包尾 QQ包头是7个字节:分别的意义是: 第0-0字节:总是02,表明是基本的QQ协议。在新版本的QQ中,我们发现还有使用06和01的,大约的作用似乎是:06是向服务器(和不同QQ使用的服务器不同)请求发送一些作用不明的文件。01是服务器向它进行发送这个文件。目前,我们明白作用的是02协议族。 第1-2字节:发送者的QQ软件版本代码。如果是01 00表示是发自服务器的包。这时候我们检查源IP地址就可以获得服务器的IP。 第3-4字节:QQ指令代码。如果发现有新的指令,将是很重要的信息。 第5-6字节:指令序列号。QQ的指令总是成对出现的,也就是说,一方发出一个命令,将会收到另一方的同样序列号的应答。另外,发送方每条指令的序列号都是上一条指令的加一。有两个方面要注意的是,每一方都维持自己的序列号,也就是说,客户端的当前序列号和服务器的当前序列号是不一致的,当客户端为指令发出方的时候,它使用自己的当前序列号,而服务器作为应答方,在应答的时候使用的接受到的命令的序列号;反之,如果是服务器是指令的发出方,那么它就使用自己的当前序列号,而不用理会客户端上一条指令的序列号。另外一个事情是,由于服务器会同时和多个客户端通信,所以,对每个客户端收到的服务器指令的序列号不是连续的,序列号的连续性不应该作为丢包的判断依据。 另外,通信开始客户端的第一个序列号是随机选取的,但似乎没有发现大过0x00ff的。最后的退出登录数据包总是使用0xffff作为序列号,而且是不会有应答的。 包尾是一个字节,目前发现总是0x03。 由于我们截取的是机器上的全部UDP包,所以我们需要使用这些信息来综合判断我们当前分析的是不是QQ的命令。 这样我们就可以剥离出QQ的命令包数据部分: 0000: 01 82 5D 90 6F 30 FD 96 到这里为止,我们已经可以观察网络上客户端往返的指令的大概情况,而了解QQ协议的大概框架。另外将叙述数据包文件的分析。 |