nodejs简单实现中英⽂翻译
帮以前同事解决⼀个需求,中⽂项⽬翻译英⽂项⽬~~~
考虑到具体实现⽅⾯的问题,如果智能的话,肯定是要做中⽂的语法分析,不过感觉这个有难度。
所以最后的⽅案是遍历⽂件,将中⽂短语匹配出来,再进⾏⼈⼯翻译,将中⽂短语替换成翻译的内容。当然后期还是需要⼈⼯再检验下,毕竟代码中的中⽂,可能会影响到相关的程序。
这个问题,明显涉及到多线程,⽂件读写,第⼀时间就想到的是 nodejs,虽然nodejs是⼀个主线程,但是异步⽂件读写,事件响应机制,肯定
也是调⽤了线程,在实际编程的时候不需要考虑线程的相关的问题。
代码不复杂如下,写完了之后,适当的封装了下
var fs = require('fs');
var http = require('http');
var filePath = 'D:\\WORK_new\\';
var logPath = 'D:\\chinese.log';
var map = {};
var num = 0;
var dictionary = (function () {
var map = {};
return {
logPath: 'D:\\chinese.log',
set: function (key, val) {
map[key] = val || '';
},
get: function (key) {
return map[key]||'';
},
save2File: function () {
fs.writeFile(this.logPath, JSON.stringify(map).replace(/","/g,'",\r\n"'),{encoding:'utf8',flag:'w'}, function (err) {
if (err) throw err;
});
},
loadFile: function (callback) {
map = JSON.parse(data);
callback();
})
},
translateByGoogle: function (callback) {
var index = 0;
for (var key in map) {
if (map[key] == '') {
index++;
(function (key) {
<("le/translate_a/t?client=t&hl=zh-CN&sl=zh-CN&tl=en&ie=UTF-8&oe=UTF-8&oc=2&otf=1&ssel=3&tsel=6&sc=2&q="+key, function(res) {              res.setEncoding('utf8');
var body = "";
<('data', function (chunk) {
body+=chunk;
}).on('end', function (){
var obj = eval('('+body+')');
map[key] = obj[0][0][0];
index--;
if (index == 0) {
callback();
}javascript是什么意思中文翻译
});
}).on('error', function(e) {
console.log('http error');
index--;
if (index == 0) {
callback();
}
console.log("Got error: " + e.message);
});
})(key);
}
}
}
}
})();
function File () {
var index = 0;
var _readFile = function (pathStr, fileBack, doneBack) {
index--;
if (err) {
data = "";
console.log(err,pathStr)
//throw err;
}
fileBack(data,pathStr);
if (index == 0) {
doneBack();
}
});
};
var _walkDir = function (pathStr, fileBack, doneBack) {
files.forEach(function (file) {
if(fs.statSync(pathStr + '/' + file).isDirectory()){
_walkDir(pathStr + '/' + file, fileBack, doneBack);
} else {
if (/.js$|.html$|.htm$|.jsp$/.test(file)){
index ++;
_readFile(pathStr + '/' + file, fileBack, doneBack);
}
return;
}
});
});
}
this.walkDir = function (pathStr, fileBack, doneBack) {
index = 0;
_walkDir(pathStr, fileBack, doneBack);
}
}
//第⼀步获取中⽂
dictionary.logPath = logPath;
new File().walkDir(filePath, function (data) {
if (!!data) {
var match = data.match(/[\u4e00-\u9faf]+/g);
if (!!match) {
match.forEach(function (mat) {
dictionary.set(mat);
})
}
}
}, function () {
console.log('获取中⽂ OK');
dictionary.save2File();
})
//第⼆步 google翻译
/*
dictionary.loadFile(function () {
dictionary.save2File();
})
});
*/
//第三步中⽂替换
/*
dictionary.loadFile(function () {
new File().walkDir(filePath, function (data,pathStr) {
fs.writeFile(pathStr, place(/[\u4e00-\u9faf]+/g, function (ch) {
(ch);
}),{encoding:'ascii',flag:'w'}, function (err) {
if (err) throw err;
});
}, function () {
console.log('中⽂替换 OK');
})
});
*/
问题还是有的
2.效率上⾯可能可以再通过线程进⾏优化,这块没做深⼊的考虑
3.匹配出来,可能有单个的标点符号的短语等情况,需要⼈⼯排查
实际情况中,⽂件是GBK的,还有些⽂件是utf8的,后来还是考虑通过脚本语⾔快⼿实现的时候,
1.⽂件编码的问题,判断通过搜索
判断⽂件⾸位3个字节是不是 ef bb bf,但是这个只是针对有BOM的utf8格式
对⽆BOM的utf8格式,需要进⾏字节特征码的判断(有难度,精⼒有限,使⽤了上⾯的⽅案,对于⽆BOM的情况,进⾏⼈⼯排查)。
2.因为快⼿多线程⽅便编程很简单,⼀直以为多线程肯定⽐单线程效率要好。实际情况却和想的不⼀样,单线程的⽐多线程的快多了。看来主要瓶颈还是在读写⽂件IO上⾯。
以上所述就是本⽂全部内容了,希望⼤家能够喜欢。