Tizen 2.1 base
[platform/core/uifw/ise-engine-sunpinyin.git] / src / slm / ids2ngram / idngram_merge.h
1 // -*- mode: c++ -*-
2 /*
3  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS HEADER.
4  *
5  * Copyright (c) 2007 Sun Microsystems, Inc. All Rights Reserved.
6  *
7  * The contents of this file are subject to the terms of either the GNU Lesser
8  * General Public License Version 2.1 only ("LGPL") or the Common Development and
9  * Distribution License ("CDDL")(collectively, the "License"). You may not use this
10  * file except in compliance with the License. You can obtain a copy of the CDDL at
11  * http://www.opensource.org/licenses/cddl1.php and a copy of the LGPLv2.1 at
12  * http://www.opensource.org/licenses/lgpl-license.php. See the License for the
13  * specific language governing permissions and limitations under the License. When
14  * distributing the software, include this License Header Notice in each file and
15  * include the full text of the License in the License file as well as the
16  * following notice:
17  *
18  * NOTICE PURSUANT TO SECTION 9 OF THE COMMON DEVELOPMENT AND DISTRIBUTION LICENSE
19  * (CDDL)
20  * For Covered Software in this distribution, this License shall be governed by the
21  * laws of the State of California (excluding conflict-of-law provisions).
22  * Any litigation relating to this License shall be subject to the jurisdiction of
23  * the Federal Courts of the Northern District of California and the state courts
24  * of the State of California, with venue lying in Santa Clara County, California.
25  *
26  * Contributor(s):
27  *
28  * If you wish your version of this file to be governed by only the CDDL or only
29  * the LGPL Version 2.1, indicate your decision by adding "[Contributor]" elects to
30  * include this software in this distribution under the [CDDL or LGPL Version 2.1]
31  * license." If you don't indicate a single choice of license, a recipient has the
32  * option to distribute your version of this file under either the CDDL or the LGPL
33  * Version 2.1, or to extend the choice of license to its licensees as provided
34  * above. However, if you add LGPL Version 2.1 code and therefore, elected the LGPL
35  * Version 2 license, then the option applies only if the new code is made subject
36  * to such option by the copyright holder.
37  */
38
39 #ifndef _SIM_IDNGRAM_MERGE_H
40 #define _SIM_IDNGRAM_MERGE_H
41
42 #include <stdio.h>
43 #include <map>
44 #include <vector>
45 #include <algorithm>
46 #include <climits>
47
48 #include "../sim_fmerge.h"
49 #include "idngram.h"
50
51 template<int N>
52 void DoIdngramMerge(FILE*out,
53                     CMultiWayFileMerger<CSIM_IdngramFreq<N> > &merger){
54     merger.start();
55     CSIM_IdngramFreq<N> prevItem;
56     while (true) {
57         file_para<CSIM_IdngramFreq<N> > * ppara = merger.getBest();
58         TUnitAndParaInfo<CSIM_IdngramFreq<N> > & upi = *(*ppara);
59         if (upi.runOut) {
60             if (prevItem.freq != 0) {
61                 fwrite(prevItem.ids, sizeof(TSIMWordId), N, out);
62                 fwrite(&(prevItem.freq), sizeof(unsigned int), 1, out);
63             }
64             break;
65         }
66         CSIM_IdngramFreq<N>& ng = upi.unit;
67         if (!(prevItem == ng)) {
68             if (prevItem.freq != 0) {
69                 fwrite(prevItem.ids, sizeof(TSIMWordId), N, out);
70                 fwrite(&(prevItem.freq), sizeof(unsigned int), 1, out);
71             }
72             prevItem = ng;
73         } else {
74             assert(prevItem.freq < UINT_MAX);
75             prevItem.freq += ng.freq;
76         }
77         merger.next();
78     }
79 }
80
81 template<int N>
82 void ProcessingIdngramMerge(FILE *swap,
83                             FILE* out,
84                             std::vector<long>& para_offsets){
85     CMultiWayFileMerger<CSIM_IdngramFreq<N> > merger;
86     long s = 0;
87     for (size_t i = 0; i < para_offsets.size(); i++) {
88         merger.addPara(swap, s, para_offsets[i]);
89         s = para_offsets[i];
90     }
91     DoIdngramMerge<N>(out, merger);
92 }
93
94 template<int N>
95 void ProcessingIdngramMerge(FILE* out, std::vector<FILE* >& file_list){
96     CMultiWayFileMerger<CSIM_IdngramFreq<N> > merger;
97     for (size_t i = 0; i < file_list.size(); ++i) {
98         fseek(file_list[i], 0, SEEK_END);
99         merger.addPara(file_list[i], 0, ftell(file_list[i]));
100     }
101     DoIdngramMerge<N>(out, merger);
102 }
103
104 #endif
105