增加数据改变增强倍数

961b319e · szr712 · cf45cfe1 · 961b319e · 961b319e · 961b319e
Commit 961b319e authored Dec 07, 2021 by szr712
53 changed files
--- a/.gitignore
+++ b/.gitignore
 *.pyc
 .vscode
 /weights
-data/**/*.txt
+/data/pkl
-data/**/*.pkl
+/data/result_data
+/data/test_data
+/data/*.txt
--- a/Process.py
+++ b/Process.py
@@ -132,7 +132,7 @@ def create_dataset(opt, SRC, TRG):
    train_iter = MyIterator(train, batch_size=opt.batchsize, device=opt.device,
                        repeat=False, sort_key=lambda x: (len(x.src), len(x.trg)),
-                        batch_size_fn=None, train=True, shuffle=True,augment=True)
+                        batch_size_fn=None, train=True, shuffle=True,augment=True,change_possibility=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1])
    os.remove('translate_transformer_temp.csv')

--- a/convert_test_set.py
+++ b/convert_test_set.py
@@ -6,21 +6,15 @@ from build_corpus import split_initials_finals, wenzi2pinyin
 import random
 def random_change_tones(tones):
-    options=[0,1,2,3,4]
+    change_possibility=[0.5, 0.6, 0.7, 0.8, 0.9, 1]
+    change_possibility=random.choice(change_possibility)
    random.seed(42)
    for i,x in enumerate(tones):
-        if random.randint(0,99) < 30:
+        if random.random() < change_possibility:
-            tones[i]=random.choice(options)
+            tones[i]=0
    return tones
-hanzi_dir="./data/test_data/split_random_wo_tones/hanzi"
+def convert_pinyin(file,hanzi_dir,pinyin_dir,new_file):
-pinyin_dir="./data/test_data/split_random_wo_tones/pinyin"
-with open("./data/voc/yunmu.txt","r",encoding="utf-8") as f:
-        yunmus=f.readlines()
-        yunmus=[a.strip() for a in yunmus]
-for file in os.listdir(hanzi_dir):
    print(file)
    with open(os.path.join(hanzi_dir,file),'r',encoding="utf-8") as f:
        contents=f.readlines()
@@ -29,7 +23,7 @@ for file in os.listdir(hanzi_dir):
        sent = line.strip()
        sent = sent.replace(" ","")
        pinyins,tones=wenzi2pinyin(sent)
-        # tones=random_change_tones(tones)
+        tones=random_change_tones(tones)
        pnyns=[]
        i=0
        for pinyin,tone in zip(pinyins,tones):
@@ -41,5 +35,16 @@ for file in os.listdir(hanzi_dir):
                i+=len(pinyin)
        pnyns = " ".join(list(itertools.chain.from_iterable(pnyns)))
        result.append(pnyns)
-    with open(os.path.join(pinyin_dir,file),"w",encoding="utf-8") as f:
+    with open(os.path.join(pinyin_dir,new_file),"w",encoding="utf-8") as f:
        f.write("\n".join(result))
+if __name__=="__main__":
+    hanzi_dir="./data/test_data/split_random_wo_tones/hanzi"
+    pinyin_dir="./data/test_data/split_random_wo_tones/pinyin2"
+# with open("./data/voc/yunmu.txt","r",encoding="utf-8") as f:
+#         yunmus=f.readlines()
+#         yunmus=[a.strip() for a in yunmus]
+    convert_pinyin("dev_hanzi.txt","./data/dev","./data/dev","dev_pinyin_split.txt")
+    # for file in os.listdir(hanzi_dir):
+    #     convert_pinyin(file,hanzi_dir,pinyin_dir)
\ No newline at end of file
--- a/data/dev/dev_hanzi.txt
+++ b/data/dev/dev_hanzi.txt
--- a/data/dev/dev_hanzi_split.txt
+++ b/data/dev/dev_hanzi_split.txt
--- a/data/dev/dev_pinyin.txt
+++ b/data/dev/dev_pinyin.txt
--- a/data/dev/dev_pinyin_split.txt
+++ b/data/dev/dev_pinyin_split.txt
--- a/data/test/hanzi/chemistry.txt
+++ b/data/test/hanzi/chemistry.txt
--- a/data/test/hanzi/chinese.txt
+++ b/data/test/hanzi/chinese.txt
--- a/data/test/hanzi/geography.txt
+++ b/data/test/hanzi/geography.txt
--- a/data/test/hanzi/history.txt
+++ b/data/test/hanzi/history.txt
--- a/data/test/hanzi/math.txt
+++ b/data/test/hanzi/math.txt
--- a/data/test/hanzi/physics.txt
+++ b/data/test/hanzi/physics.txt
--- a/data/test/hanzi/politics.txt
+++ b/data/test/hanzi/politics.txt
--- a/data/test/hanzi/zho_news_2007-2009_1M-sentences_2.txt
+++ b/data/test/hanzi/zho_news_2007-2009_1M-sentences_2.txt
--- a/data/test/pinyin/chemistry.txt
+++ b/data/test/pinyin/chemistry.txt
--- a/data/test/pinyin/chinese.txt
+++ b/data/test/pinyin/chinese.txt
--- a/data/test/pinyin/geography.txt
+++ b/data/test/pinyin/geography.txt
--- a/data/test/pinyin/history.txt
+++ b/data/test/pinyin/history.txt
--- a/data/test/pinyin/math.txt
+++ b/data/test/pinyin/math.txt
--- a/data/test/pinyin/physics.txt
+++ b/data/test/pinyin/physics.txt
--- a/data/test/pinyin/politics.txt
+++ b/data/test/pinyin/politics.txt
--- a/data/test/pinyin/zho_news_2007-2009_1M-sentences_2.txt
+++ b/data/test/pinyin/zho_news_2007-2009_1M-sentences_2.txt
--- a/data/train_file/hanzi_split_random_wo_tones/chemistry.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/chemistry.txt
--- a/data/train_file/hanzi_split_random_wo_tones/chinese.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/chinese.txt
--- a/data/train_file/hanzi_split_random_wo_tones/geography.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/geography.txt
--- a/data/train_file/hanzi_split_random_wo_tones/history.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/history.txt
--- a/data/train_file/hanzi_split_random_wo_tones/math.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/math.txt
--- a/data/train_file/hanzi_split_random_wo_tones/physics.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/physics.txt
--- a/data/train_file/hanzi_split_random_wo_tones/politics.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/politics.txt
--- a/data/train_file/hanzi_split_random_wo_tones/zho_news_2007-2009_1M-sentences_2.txt
+++ b/data/train_file/hanzi_split_random_wo_tones/zho_news_2007-2009_1M-sentences_2.txt
--- a/data/train_file/ori_file_split_random_wo_tones/chemistry.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/chemistry.txt
--- a/data/train_file/ori_file_split_random_wo_tones/chinese.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/chinese.txt
--- a/data/train_file/ori_file_split_random_wo_tones/geography.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/geography.txt
--- a/data/train_file/ori_file_split_random_wo_tones/history.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/history.txt
--- a/data/train_file/ori_file_split_random_wo_tones/math.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/math.txt
--- a/data/train_file/ori_file_split_random_wo_tones/physics.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/physics.txt
--- a/data/train_file/ori_file_split_random_wo_tones/politics.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/politics.txt
--- a/data/train_file/ori_file_split_random_wo_tones/zho_news_2007-2009_1M-sentences_2.txt
+++ b/data/train_file/ori_file_split_random_wo_tones/zho_news_2007-2009_1M-sentences_2.txt
--- a/data/train_file/pinyin_split_random_wo_tones/chemistry.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/chemistry.txt
--- a/data/train_file/pinyin_split_random_wo_tones/chinese.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/chinese.txt
--- a/data/train_file/pinyin_split_random_wo_tones/geography.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/geography.txt
--- a/data/train_file/pinyin_split_random_wo_tones/history.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/history.txt
--- a/data/train_file/pinyin_split_random_wo_tones/math.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/math.txt
--- a/data/train_file/pinyin_split_random_wo_tones/physics.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/physics.txt
--- a/data/train_file/pinyin_split_random_wo_tones/politics.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/politics.txt
--- a/data/train_file/pinyin_split_random_wo_tones/zho_news_2007-2009_1M-sentences_2.txt
+++ b/data/train_file/pinyin_split_random_wo_tones/zho_news_2007-2009_1M-sentences_2.txt
--- a/data/voc/hanzi.txt
+++ b/data/voc/hanzi.txt
--- a/data/voc/pinyin.txt
+++ b/data/voc/pinyin.txt
--- a/data/voc/yunmu.txt
+++ b/data/voc/yunmu.txt
--- a/data/voc/yunmus.txt
+++ b/data/voc/yunmus.txt
--- a/log.txt
+++ b/log.txt
--- a/train_token_classification.py
+++ b/train_token_classification.py