UNPKG

80.2 kBJavaScriptView Raw
1'use strict';
2Object.defineProperty(exports, "__esModule", { value: true });
3exports.init = exports.DictTokenizer = exports.DEFAULT_MAX_CHUNK_COUNT_MIN = exports.DEFAULT_MAX_CHUNK_COUNT = void 0;
4const mod_1 = require("../mod");
5const index_1 = require("../util/index");
6const CHS_NAMES_1 = require("../mod/CHS_NAMES");
7const const_1 = require("../mod/const");
8exports.DEFAULT_MAX_CHUNK_COUNT = 40;
9exports.DEFAULT_MAX_CHUNK_COUNT_MIN = 30;
10/**
11 * 字典识别模块
12 *
13 * @author 老雷<leizongmin@gmail.com>
14 */
15class DictTokenizer extends mod_1.SubSModuleTokenizer {
16 constructor() {
17 super(...arguments);
18 /**
19 * 防止因無分段導致分析過久甚至超過處理負荷
20 * 越高越精準但是處理時間會加倍成長甚至超過記憶體能處理的程度
21 *
22 * 數字越小越快
23 *
24 * FATAL ERROR: CALL_AND_RETRY_LAST Allocation failed - JavaScript heap out of memory
25 *
26 * @type {number}
27 */
28 this.MAX_CHUNK_COUNT = exports.DEFAULT_MAX_CHUNK_COUNT;
29 /**
30 *
31 * 追加新模式使 MAX_CHUNK_COUNT 遞減來防止無分段長段落的總處理次數過高 由 DEFAULT_MAX_CHUNK_COUNT_MIN 來限制最小值
32 */
33 this.DEFAULT_MAX_CHUNK_COUNT_MIN = exports.DEFAULT_MAX_CHUNK_COUNT_MIN;
34 }
35 _cache() {
36 super._cache();
37 this._TABLE = this.segment.getDict('TABLE');
38 this._TABLE2 = this.segment.getDict('TABLE2');
39 this._POSTAG = this.segment.POSTAG;
40 if (typeof this.segment.options.maxChunkCount == 'number' && this.segment.options.maxChunkCount > exports.DEFAULT_MAX_CHUNK_COUNT_MIN) {
41 this.MAX_CHUNK_COUNT = this.segment.options.maxChunkCount;
42 }
43 if (typeof this.segment.options.minChunkCount == 'number' && this.segment.options.minChunkCount > exports.DEFAULT_MAX_CHUNK_COUNT_MIN) {
44 this.DEFAULT_MAX_CHUNK_COUNT_MIN = this.segment.options.minChunkCount;
45 }
46 }
47 /**
48 * 对未识别的单词进行分词
49 *
50 * @param {array} words 单词数组
51 * @return {array}
52 */
53 split(words) {
54 //debug(words);
55 const TABLE = this._TABLE;
56 //const POSTAG = this._POSTAG;
57 const self = this;
58 let ret = [];
59 for (let i = 0, word; word = words[i]; i++) {
60 if (word.p > 0) {
61 ret.push(word);
62 continue;
63 }
64 // 仅对未识别的词进行匹配
65 let wordinfo = this.matchWord(word.w, 0, words[i - 1]);
66 if (wordinfo.length < 1) {
67 ret.push(word);
68 continue;
69 }
70 // 分离出已识别的单词
71 let lastc = 0;
72 wordinfo.forEach(function (bw, ui) {
73 if (bw.c > lastc) {
74 ret.push({
75 w: word.w.substr(lastc, bw.c - lastc),
76 });
77 }
78 let cw = self.createRawToken({
79 w: bw.w,
80 f: bw.f,
81 }, TABLE[bw.w]);
82 ret.push(cw);
83 /*
84 ret.push({
85 w: bw.w,
86 p: ww.p,
87 f: bw.f,
88 s: ww.s,
89 });
90 */
91 lastc = bw.c + bw.w.length;
92 });
93 let lastword = wordinfo[wordinfo.length - 1];
94 if (lastword.c + lastword.w.length < word.w.length) {
95 let cw = self.createRawToken({
96 w: word.w.substr(lastword.c + lastword.w.length),
97 });
98 ret.push(cw);
99 }
100 }
101 words = undefined;
102 return ret;
103 }
104 // =================================================================
105 /**
106 * 匹配单词,返回相关信息
107 *
108 * @param {string} text 文本
109 * @param {int} cur 开始位置
110 * @param {object} preword 上一个单词
111 * @return {array} 返回格式 {w: '单词', c: 开始位置}
112 */
113 matchWord(text, cur, preword) {
114 if (isNaN(cur))
115 cur = 0;
116 let ret = [];
117 let s = false;
118 const TABLE2 = this._TABLE2;
119 // 匹配可能出现的单词
120 while (cur < text.length) {
121 for (let i in TABLE2) {
122 let w = text.substr(cur, i);
123 if (w in TABLE2[i]) {
124 ret.push({
125 w: w,
126 c: cur,
127 f: TABLE2[i][w].f,
128 });
129 }
130 }
131 cur++;
132 }
133 return this.filterWord(ret, preword, text);
134 }
135 /**
136 * 选择最有可能匹配的单词
137 *
138 * @param {array} words 单词信息数组
139 * @param {object} preword 上一个单词
140 * @param {string} text 本节要分词的文本
141 * @return {array}
142 */
143 filterWord(words, preword, text) {
144 const TABLE = this._TABLE;
145 const POSTAG = this._POSTAG;
146 let ret = [];
147 // 将单词按位置分组
148 let wordpos = this.getPosInfo(words, text);
149 //debug(wordpos);
150 /**
151 * 使用类似于MMSG的分词算法
152 * 找出所有分词可能,主要根据一下几项来评价:
153 * x、词数量最少;
154 * a、词平均频率最大;
155 * b、每个词长度标准差最小;
156 * c、未识别词最少;
157 * d、符合语法结构项:如两个连续的动词减分,数词后面跟量词加分;
158 * 取以上几项综合排名最最好的
159 */
160 let chunks = this.getChunks(wordpos, 0, text);
161 //debug(chunks);
162 let assess = []; // 评价表
163 //console.log(chunks);
164 // 对各个分支就行评估
165 for (let i = 0, chunk; chunk = chunks[i]; i++) {
166 assess[i] = {
167 x: chunk.length,
168 a: 0,
169 b: 0,
170 c: 0,
171 d: 0,
172 index: i,
173 };
174 // 词平均长度
175 let sp = text.length / chunk.length;
176 // 句子经常包含的语法结构
177 let has_D_V = false; // 是否包含动词
178 // 遍历各个词
179 let prew;
180 if (preword) {
181 /*
182 prew = {
183 w: preword.w,
184 p: preword.p,
185 f: preword.f,
186 s: preword.s,
187 }
188 */
189 prew = this.createRawToken(preword);
190 }
191 else {
192 prew = null;
193 }
194 for (let j = 0, w; w = chunk[j]; j++) {
195 if (w.w in TABLE) {
196 w.p = TABLE[w.w].p;
197 assess[i].a += w.f; // 总词频
198 if (j === 0 && !preword && (w.p & POSTAG.D_V)) {
199 /**
200 * 將第一個字也計算進去是否包含動詞
201 */
202 has_D_V = true;
203 }
204 // ================ 检查语法结构 ===================
205 if (prew) {
206 // 如果上一个词是数词且当前词是量词(单位),则加分
207 if ((prew.p & POSTAG.A_M)
208 &&
209 ((w.p & POSTAG.A_Q)
210 || w.w in const_1.DATETIME)) {
211 assess[i].d++;
212 }
213 // 如果当前词是动词
214 if (w.p & POSTAG.D_V) {
215 has_D_V = true;
216 // 如果是连续的两个动词,则减分
217 //if ((prew.p & POSTAG.D_V) > 0)
218 //assess[i].d--;
219 /*
220 // 如果是 形容词 + 动词,则加分
221 if ((prew.p & POSTAG.D_A))
222 {
223 assess[i].d++;
224 }
225 */
226 // 如果是 副词 + 动词,则加分
227 if (prew.p & POSTAG.D_D) {
228 assess[i].d++;
229 }
230 }
231 // 如果是地区名、机构名或形容词,后面跟地区、机构、代词、名词等,则加分
232 if (((prew.p & POSTAG.A_NS)
233 || (prew.p & POSTAG.A_NT)
234 || (prew.p & POSTAG.D_A)) &&
235 ((w.p & POSTAG.D_N)
236 || (w.p & POSTAG.A_NR)
237 || (w.p & POSTAG.A_NS)
238 || (w.p & POSTAG.A_NZ)
239 || (w.p & POSTAG.A_NT))) {
240 assess[i].d++;
241 }
242 // 如果是 方位词 + 数量词,则加分
243 if ((prew.p & POSTAG.D_F)
244 &&
245 ((w.p & POSTAG.A_M)
246 || (w.p & POSTAG.D_MQ))) {
247 //debug(prew, w);
248 assess[i].d++;
249 }
250 // 如果是 姓 + 名词,则加分
251 if ((prew.w in CHS_NAMES_1.FAMILY_NAME_1
252 || prew.w in CHS_NAMES_1.FAMILY_NAME_2) &&
253 ((w.p & POSTAG.D_N)
254 || (w.p & POSTAG.A_NZ))) {
255 //debug(prew, w);
256 assess[i].d++;
257 }
258 /**
259 * 地名/处所 + 方位
260 */
261 if (index_1.hexAndAny(prew.p, POSTAG.D_S, POSTAG.A_NS) && index_1.hexAndAny(w.p, POSTAG.D_F)) {
262 assess[i].d += 0.5;
263 }
264 // 探测下一个词
265 let nextw = chunk[j + 1];
266 if (nextw) {
267 if (nextw.w in TABLE) {
268 nextw.p = TABLE[nextw.w].p;
269 }
270 let _temp_ok = true;
271 /**
272 * 如果当前是“的”+ 名词,则加分
273 */
274 if ((w.w === '的' || w.w === '之')
275 && nextw.p && ((nextw.p & POSTAG.D_N)
276 || (nextw.p & POSTAG.D_V)
277 || (nextw.p & POSTAG.A_NR)
278 || (nextw.p & POSTAG.A_NS)
279 || (nextw.p & POSTAG.A_NZ)
280 || (nextw.p & POSTAG.A_NT))) {
281 assess[i].d += 1.5;
282 _temp_ok = false;
283 }
284 /**
285 * 如果是连词,前后两个词词性相同则加分
286 */
287 else if (prew.p && (w.p & POSTAG.D_C)) {
288 let p = prew.p & nextw.p;
289 if (prew.p === nextw.p) {
290 assess[i].d++;
291 _temp_ok = false;
292 }
293 else if (p) {
294 assess[i].d += 0.25;
295 _temp_ok = false;
296 if (p & POSTAG.D_N) {
297 assess[i].d += 0.75;
298 }
299 }
300 }
301 /**
302 * 在感動的重逢中有余在的話就太過閃耀
303 */
304 if (_temp_ok && (w.p & POSTAG.D_R) && (nextw.p & POSTAG.D_P)) {
305 assess[i].d += 1;
306 _temp_ok = false;
307 }
308 if (_temp_ok && nextw.p && (w.p & POSTAG.D_P)) {
309 if (nextw.p & POSTAG.A_NR && (nextw.w.length > 1)) {
310 assess[i].d++;
311 if (prew.w === '的') {
312 /**
313 * 的 + 介詞 + 人名
314 */
315 assess[i].d += 1;
316 _temp_ok = false;
317 }
318 }
319 }
320 if (_temp_ok && (w.p & POSTAG.D_P) && index_1.hexAndAny(prew.p, POSTAG.D_N) && index_1.hexAndAny(nextw.p, POSTAG.D_N, POSTAG.D_V)) {
321 assess[i].d++;
322 _temp_ok = false;
323 }
324 else if (_temp_ok && (w.p & POSTAG.D_P) && index_1.hexAndAny(prew.p, POSTAG.D_R) && index_1.hexAndAny(nextw.p, POSTAG.D_R)) {
325 assess[i].d += 0.5;
326 _temp_ok = false;
327 }
328 // @FIXME 暴力解決 三天后 的問題
329 if (nextw.w === '后' && w.p & POSTAG.D_T && index_1.hexAndAny(prew.p, POSTAG.D_MQ, POSTAG.A_M)) {
330 assess[i].d++;
331 }
332 // @FIXME 到湖中間后手終於能休息了
333 else if ((nextw.w === '后'
334 || nextw.w === '後')
335 && index_1.hexAndAny(w.p, POSTAG.D_F)) {
336 assess[i].d++;
337 }
338 if ((w.w === '后'
339 || w.w === '後')
340 && index_1.hexAndAny(prew.p, POSTAG.D_F)
341 && index_1.hexAndAny(nextw.p, POSTAG.D_N)) {
342 assess[i].d++;
343 }
344 }
345 else {
346 let _temp_ok = true;
347 /**
348 * 她把荷包蛋摆在像是印度烤饼的面包上
349 */
350 if (_temp_ok && (w.p & POSTAG.D_F) && index_1.hexAndAny(prew.p, POSTAG.D_N)) {
351 assess[i].d += 1;
352 _temp_ok = false;
353 }
354 }
355 }
356 // ===========================================
357 }
358 else {
359 // 未识别的词数量
360 assess[i].c++;
361 }
362 // 标准差
363 assess[i].b += Math.pow(sp - w.w.length, 2);
364 prew = chunk[j];
365 }
366 // 如果句子中包含了至少一个动词
367 if (has_D_V === false)
368 assess[i].d -= 0.5;
369 assess[i].a = assess[i].a / chunk.length;
370 assess[i].b = assess[i].b / chunk.length;
371 }
372 //console.dir(assess);
373 // 计算排名
374 let top = this.getTops(assess);
375 let currchunk = chunks[top];
376 if (false) {
377 //console.log(assess);
378 //console.log(Object.entries(chunks));
379 console.dir(Object.entries(chunks)
380 .map(([i, chunk]) => { return { i, asses: assess[i], chunk }; }), { depth: 5 });
381 console.dir({ i: top, asses: assess[top], currchunk });
382 //console.log(top);
383 //console.log(currchunk);
384 }
385 // 剔除不能识别的词
386 for (let i = 0, word; word = currchunk[i]; i++) {
387 if (!(word.w in TABLE)) {
388 currchunk.splice(i--, 1);
389 }
390 }
391 ret = currchunk;
392 // 試圖主動清除記憶體
393 assess = undefined;
394 chunks = undefined;
395 currchunk = undefined;
396 top = undefined;
397 wordpos = undefined;
398 //debug(ret);
399 return ret;
400 }
401 /**
402 * 评价排名
403 *
404 * @param {object} assess
405 * @return {object}
406 */
407 getTops(assess) {
408 //debug(assess);
409 // 取各项最大值
410 let top = {
411 x: assess[0].x,
412 a: assess[0].a,
413 b: assess[0].b,
414 c: assess[0].c,
415 d: assess[0].d,
416 };
417 for (let i = 1, ass; ass = assess[i]; i++) {
418 if (ass.a > top.a)
419 top.a = ass.a; // 取最大平均词频
420 if (ass.b < top.b)
421 top.b = ass.b; // 取最小标准差
422 if (ass.c > top.c)
423 top.c = ass.c; // 取最大未识别词
424 if (ass.d < top.d)
425 top.d = ass.d; // 取最小语法分数
426 if (ass.x > top.x)
427 top.x = ass.x; // 取最大单词数量
428 }
429 //debug(top);
430 // 评估排名
431 let tops = [];
432 for (let i = 0, ass; ass = assess[i]; i++) {
433 tops[i] = 0;
434 // 词数量,越小越好
435 tops[i] += (top.x - ass.x) * 1.5;
436 // 词总频率,越大越好
437 if (ass.a >= top.a)
438 tops[i] += 1;
439 // 词标准差,越小越好
440 if (ass.b <= top.b)
441 tops[i] += 1;
442 // 未识别词,越小越好
443 tops[i] += (top.c - ass.c); //debug(tops[i]);
444 // 符合语法结构程度,越大越好
445 tops[i] += (ass.d < 0 ? top.d + ass.d : ass.d - top.d) * 1;
446 ass.score = tops[i];
447 //debug(tops[i]);debug('---');
448 }
449 //debug(tops.join(' '));
450 //console.log(tops);
451 //console.log(assess);
452 //const old_method = true;
453 const old_method = false;
454 // 取分数最高的
455 let curri = 0;
456 let maxs = tops[0];
457 for (let i in tops) {
458 let s = tops[i];
459 if (s > maxs) {
460 curri = i;
461 maxs = s;
462 }
463 else if (s === maxs) {
464 /**
465 * 如果分数相同,则根据词长度、未识别词个数和平均频率来选择
466 *
467 * 如果依然同分,則保持不變
468 */
469 let a = 0;
470 let b = 0;
471 if (assess[i].c < assess[curri].c) {
472 a++;
473 }
474 else if (assess[i].c !== assess[curri].c) {
475 b++;
476 }
477 if (assess[i].a > assess[curri].a) {
478 a++;
479 }
480 else if (assess[i].a !== assess[curri].a) {
481 b++;
482 }
483 if (assess[i].x < assess[curri].x) {
484 a++;
485 }
486 else if (assess[i].x !== assess[curri].x) {
487 b++;
488 }
489 if (a > b) {
490 curri = i;
491 maxs = s;
492 }
493 }
494 //debug({ i, s, maxs, curri });
495 }
496 //debug('max: i=' + curri + ', s=' + tops[curri]);
497 assess = undefined;
498 top = undefined;
499 return curri;
500 }
501 /**
502 * 将单词按照位置排列
503 *
504 * @param {array} words
505 * @param {string} text
506 * @return {object}
507 */
508 getPosInfo(words, text) {
509 let wordpos = {};
510 // 将单词按位置分组
511 for (let i = 0, word; word = words[i]; i++) {
512 if (!wordpos[word.c]) {
513 wordpos[word.c] = [];
514 }
515 wordpos[word.c].push(word);
516 }
517 // 按单字分割文本,填补空缺的位置
518 for (let i = 0; i < text.length; i++) {
519 if (!wordpos[i]) {
520 wordpos[i] = [{ w: text.charAt(i), c: i, f: 0 }];
521 }
522 }
523 return wordpos;
524 }
525 /**
526 * 取所有分支
527 *
528 * @param {{[p: number]: Segment.IWord[]}} wordpos
529 * @param {number} pos 当前位置
530 * @param {string} text 本节要分词的文本
531 * @param {number} total_count
532 * @returns {Segment.IWord[][]}
533 */
534 getChunks(wordpos, pos, text, total_count = 0, MAX_CHUNK_COUNT) {
535 /**
536 *
537 * 追加新模式使 MAX_CHUNK_COUNT 遞減來防止無分段長段落的總處理次數過高 由 DEFAULT_MAX_CHUNK_COUNT_MIN 來限制最小值
538 */
539 if (total_count === 0) {
540 MAX_CHUNK_COUNT = this.MAX_CHUNK_COUNT;
541 /**
542 * 只有當目前文字長度大於 MAX_CHUNK_COUNT 時才遞減
543 */
544 if (text.length < MAX_CHUNK_COUNT) {
545 MAX_CHUNK_COUNT += 1;
546 }
547 }
548 else if (MAX_CHUNK_COUNT <= this.MAX_CHUNK_COUNT) {
549 MAX_CHUNK_COUNT = Math.max(MAX_CHUNK_COUNT - 1, this.DEFAULT_MAX_CHUNK_COUNT_MIN, exports.DEFAULT_MAX_CHUNK_COUNT_MIN);
550 }
551 else {
552 //MAX_CHUNK_COUNT = Math.max(MAX_CHUNK_COUNT, this.DEFAULT_MAX_CHUNK_COUNT_MIN, DEFAULT_MAX_CHUNK_COUNT_MIN)
553 }
554 /**
555 * 忽略連字
556 *
557 * 例如: 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
558 */
559 let m;
560 if (m = text.match(/^((.+)\2{5,})/)) {
561 let s1 = text.slice(0, m[1].length);
562 let s2 = text.slice(m[1].length);
563 let word = {
564 w: s1,
565 c: pos,
566 f: 0,
567 };
568 let _ret = [];
569 if (s2 !== '') {
570 let chunks = this.getChunks(wordpos, pos + s1.length, s2, total_count, MAX_CHUNK_COUNT);
571 for (let ws of chunks) {
572 _ret.push([word].concat(ws));
573 }
574 }
575 else {
576 _ret.push([word]);
577 }
578 // console.dir(wordpos);
579 //
580 // console.dir(ret);
581 //
582 // console.dir([pos, text, total_count]);
583 return _ret;
584 }
585 total_count++;
586 let words = wordpos[pos] || [];
587 //debug(total_count, MAX_CHUNK_COUNT);
588 // debug({
589 // total_count,
590 // MAX_CHUNK_COUNT: this.MAX_CHUNK_COUNT,
591 // text,
592 // words,
593 // });
594 // debug('getChunks: ');
595 // debug(words);
596 //throw new Error();
597 let ret = [];
598 for (let word of words) {
599 //debug(word);
600 let nextcur = word.c + word.w.length;
601 /**
602 * @FIXME
603 */
604 if (!wordpos[nextcur]) {
605 ret.push([word]);
606 }
607 else if (total_count > MAX_CHUNK_COUNT) {
608 // do something
609 // console.log(444, words.slice(i));
610 // console.log(333, word);
611 let w1 = [word];
612 let j = nextcur;
613 while (j in wordpos) {
614 let w2 = wordpos[j][0];
615 if (w2) {
616 w1.push(w2);
617 j += w2.w.length;
618 }
619 else {
620 break;
621 }
622 }
623 ret.push(w1);
624 }
625 else {
626 let t = text.slice(word.w.length);
627 let chunks = this.getChunks(wordpos, nextcur, t, total_count, MAX_CHUNK_COUNT);
628 for (let ws of chunks) {
629 ret.push([word].concat(ws));
630 }
631 chunks = null;
632 }
633 }
634 words = undefined;
635 wordpos = undefined;
636 m = undefined;
637 return ret;
638 }
639}
640exports.DictTokenizer = DictTokenizer;
641exports.init = DictTokenizer.init.bind(DictTokenizer);
642exports.default = DictTokenizer;
643//# sourceMappingURL=data:application/json;base64,
\No newline at end of file