add local tts

d6ffde94 · cxy · 56bb731b · d6ffde94 · d6ffde94 · d6ffde94
Commit d6ffde94 authored Aug 09, 2023 by cxy
29 changed files
--- a/main_window.py
+++ b/main_window.py
@@ -252,12 +252,14 @@ class MainWindow(QMainWindow, Ui_MainWindow):
        self.zm_tableWidget.itemDoubleClicked.connect(self.change_video_time)
        # self.all_tableWidget.itemDoubleClicked.connect(self.change_video_time)
        # self.all_tableWidget.setEditTriggers(QAbstractItemView.NoEditTriggers)
-
+        self.all_tableWidget.itemDoubleClicked.connect(self.writeHistory)
+        self.all_tableWidget.itemChanged.connect(self.rewriteHistory)
        self.all_tableWidget.itemChanged.connect(self.write2ProjectFromContent)
        self.all_tableWidget.itemChanged.connect(self.generate_audio_slot_all)
        self.all_tableWidget.itemDoubleClicked.connect(self.change_video_time)
        self.all_tableWidget.itemDoubleClicked.connect(
            self.all_item_changed_by_double_clicked_slot)
+        

        self.pb_tableWidget.itemDoubleClicked.connect(self.writeHistory)
        self.pb_tableWidget.itemDoubleClicked.connect(
@@ -421,6 +423,7 @@ class MainWindow(QMainWindow, Ui_MainWindow):
            project_name = os.path.basename(project_path)
            self.setWindowTitle(f"无障碍电影制作软件（当前工程为:{project_name}）")
            self.projectContext.Init(project_path)
+            self.setting_dialog.refresh(self.projectContext)
            self.update_ui()

    # 导入视频
@@ -1025,7 +1028,7 @@ class MainWindow(QMainWindow, Ui_MainWindow):
                qcombo = QtWidgets.QComboBox()
                qcombo.addItems(constant.Content.SpeedList)
                qcombo.setCurrentIndex(constant.Content.SpeedList.index(text))
-                qcombo.currentIndexChanged.connect(self.change_audio_speed)
+                qcombo.currentIndexChanged.connect(self.change_audio_speed_all)
                table.setCellWidget(idx, j, qcombo)
            if table.objectName() == constant.Aside.ObjectName and j == constant.Aside.SpeedColumnNumber:
                qcombo = QtWidgets.QComboBox()
@@ -1200,7 +1203,9 @@ class MainWindow(QMainWindow, Ui_MainWindow):
            row = item.row()  # 获取行数
            col = item.column()  # 获取列数 注意是column而不是col哦
            text = item.text()  # 获取内容
-            if col == constant.Aside.AsideColumnNumber:
+            # if col == constant.Aside.AsideColumnNumber:
+            #     self.projectContext.history_push(row, text, text)
+            if col == constant.Content.AsideColumnNumber:
                self.projectContext.history_push(row, text, text)


@@ -1378,7 +1383,7 @@ class MainWindow(QMainWindow, Ui_MainWindow):

        Args:
            item : 旁白表格中发生变化的单元格
-        """        
+        """
        if self.projectContext.initial_ing == True:
            return
        if self.is_user_editing() == False:
@@ -1391,7 +1396,6 @@ class MainWindow(QMainWindow, Ui_MainWindow):
        row = item.row()  # 获取行数
        col = item.column()  # 获取列数 注意是column而不是col
        text = item.text()  # 获取内容
-
        if self.can_write_history == False:
            self.can_write_history = True
            return
@@ -1407,7 +1411,9 @@ class MainWindow(QMainWindow, Ui_MainWindow):
            col = item.column()  # 获取列数 注意是column而不是col哦
            text = item.text()  # 获取内容

-            if col != constant.Aside.AsideColumnNumber:
+            # if col != constant.Aside.AsideColumnNumber:
+            #     return
+            if col != constant.Content.AsideColumnNumber:
                return

            opt = self.projectContext.history_pop()
@@ -1528,9 +1534,13 @@ class MainWindow(QMainWindow, Ui_MainWindow):
        print('[undo_slot] record=%s' % (record.to_string()))
        item = QTableWidgetItem(record.old_str)
        row = int(record.row)
-        self.projectContext.aside_list[row].aside = record.old_str
-        self.pb_tableWidget.setItem(
-            row, constant.Aside.AsideColumnNumber, item)
+        # self.projectContext.aside_list[row].aside = record.old_str
+        # self.pb_tableWidget.setItem(
+        #     row, constant.Aside.AsideColumnNumber, item)
+
+        self.projectContext.all_elements[row].aside = record.old_str
+        self.all_tableWidget.setItem(
+            row, constant.Content.AsideColumnNumber, item)
        self.action_redo.setEnabled(True)

    def redo_slot(self):
@@ -1544,9 +1554,12 @@ class MainWindow(QMainWindow, Ui_MainWindow):
            self.action_redo.setEnabled(False)
        item = QTableWidgetItem(record.new_str)
        row = int(record.row)
-        self.projectContext.aside_list[row].aside = record.new_str
-        self.pb_tableWidget.setItem(
-            row, constant.Aside.AsideColumnNumber, item)
+        # self.projectContext.aside_list[row].aside = record.new_str
+        # self.pb_tableWidget.setItem(
+        #     row, constant.Aside.AsideColumnNumber, item)
+        self.projectContext.all_elements[row].aside = record.new_str
+        self.all_tableWidget.setItem(
+            row, constant.Content.AsideColumnNumber, item)

    def view_history_slot(self):
        """查看历史操作
@@ -1663,7 +1676,6 @@ class MainWindow(QMainWindow, Ui_MainWindow):
        print("self.player.position()", self.player.position())
        cur_time = round(self.player.position()/1000, 3)
        idx = self.calculate_element_row(cur_time)
-        print(">>>>>>>>>>>>>>>>>>>>>>>>>add row")
        print("idex :" + str(idx))
        print("[insert_aside_from_now_slot] idx=", idx)
        # 其实end_time目前是没啥用的，可以删掉了
@@ -1712,7 +1724,6 @@ class MainWindow(QMainWindow, Ui_MainWindow):
                        same_flag = True
                    break
                if float(cur_time) < float(self.projectContext.all_elements[idx].st_time_sec):
-                    print(">>>>>>>>>bbbbbbbb")
                    break
            idx += 1
        return idx,same_flag
@@ -2006,4 +2017,24 @@ class MainWindow(QMainWindow, Ui_MainWindow):
            self.projectContext.aside_list[row])
        self.projectContext.all_elements[int(all_idx)].speed = combo.currentText()
        self.all_tableWidget.setItem(int(all_idx), constant.Content.SpeedColumnNumber, QTableWidgetItem(combo.currentText()))
-        self.do_generate_audio_by_aside_row(int(row))
\ No newline at end of file
+        self.do_generate_audio_by_aside_row(int(row))
+
+    def change_audio_speed_all(self):
+        """换语速
+
+        首先定位到待切换语速的那一行，释放当前播放的音频文件，并替换对应旁白文本的语速，同时更新字幕旁白表格中的语速，然后自动生成新的音频。
+
+        """        
+        combo = self.sender()
+        idx = self.all_tableWidget.indexAt(combo.pos())
+        row = idx.row()
+        print("index:", row)
+        # 将audio_player的资源置空
+        self.audio_player.setMedia(QMediaContent())
+        self.projectContext.all_elements[row].speed = combo.currentText()
+        # 更新字幕旁白表格里对应行的语速
+        all_idx = self.projectContext.aside_subtitle_2contentId(
+            self.projectContext.all_elements[row])
+        self.projectContext.all_elements[int(all_idx)].speed = combo.currentText()
+        self.all_tableWidget.setItem(int(all_idx), constant.Content.SpeedColumnNumber, QTableWidgetItem(combo.currentText()))
+        self.do_generate_audio_by_aside_row_all(int(row))
\ No newline at end of file
--- a/management.py
+++ b/management.py
@@ -120,6 +120,7 @@ class ProjectContext:
        self.subtitle_list = []
        self.aside_list = []
        self.all_elements = []
+        self.speaker_type = None
        self.speaker_info = None
        self.speaker_speed = None
        self.duration = 0
@@ -176,6 +177,7 @@ class ProjectContext:
        if not os.path.exists(self.conf_path):
            print("conf file does not exist, 找管理员要")
            return 
+        print(self.conf_path)
        with open(self.conf_path, 'r', encoding='utf8') as f:
            info = json.load(f)
            # print(json.dumps(info, ensure_ascii=False, indent=4))
@@ -183,17 +185,20 @@ class ProjectContext:
            self.excel_path = info["excel_path"]
            self.speaker_info = info["speaker_info"]["speaker_id"]
            self.speaker_speed = info["speaker_info"]["speaker_speed"]
+            self.speaker_type = info["speaker_info"]["speaker_type"] if "speaker_type" in info["speaker_info"] else "科大讯飞"
            self.detected = info["detection_info"]["detected"]
            self.nd_process = info["detection_info"]["nd_process"]
            self.last_time = info["detection_info"]["last_time"]
            self.caption_boundings = info["detection_info"]["caption_boundings"]
            self.has_subtitle = info["detection_info"]["has_subtitle"]
-        # 当前工程下没有配置文件，就初始化一份
+        # 当前工程下没有配置文件，就初始化一份``
        if self.conf_path != this_conf_path:
            self.conf_path = this_conf_path
+            print("11111sava")
            self.save_conf()

    def save_conf(self):
+        print(self.speaker_speed)
        with open(self.conf_path, 'w', encoding='utf-8') as f:
            # if len(self.caption_boundings) > 0:
            #     print(type(self.caption_boundings[0]))
@@ -209,6 +214,7 @@ class ProjectContext:
                    "has_subtitle": self.has_subtitle
                },
                "speaker_info": {
+                    "speaker_type": self.speaker_type,
                    "speaker_id": self.speaker_info,
                    "speaker_speed": self.speaker_speed
                }
@@ -225,6 +231,7 @@ class ProjectContext:
    # 先备份文件，再覆盖主文件，可选是否需要备份，默认需要备份
    # 20221030：添加旁白检测的进度
    def save_project(self, need_save_new: bool=False) -> str:
+        print("22222sava")
        self.save_conf()
        # all_element = sorted(all_element, key=lambda x: float(x.st_time_sec))
        print("current excel_path:", self.excel_path)
@@ -351,6 +358,22 @@ class ProjectContext:
            self.speaker_info = speaker_name[0]
        return tuple(speaker_name)

+    def get_all_speaker_zju_info(self):
+        """获取所有说话人的名字、性别及年龄段等信息
+
+            用于显示在人机交互界面上，方便用户了解说话人并进行选择
+
+        """
+        f = open(constant.Pathes.speaker_conf_path, encoding="utf-8")
+        content = json.load(f)
+        speaker_name = []
+        for speaker in content["speaker_zju_details"]:
+            speaker_name.append(
+                "，".join([speaker["name"], speaker["gender"], speaker["age_group"]]))
+        if self.speaker_info is None:
+            self.speaker_info = speaker_name[0]
+        return tuple(speaker_name)
+
    def init_speakers(self):
        """初始化说话人信息

@@ -361,6 +384,8 @@ class ProjectContext:
        content = json.load(f)
        for speaker_info in content["speaker_details"]:
            self.speakers.append(Speaker(speaker_info))
+        for speaker_info in content["speaker_zju_details"]:
+            self.speakers.append(Speaker(speaker_info))

    def choose_speaker(self, speaker_name: str) -> Speaker:
        """选择说话人

--- a/res/conf.ini
+++ b/res/conf.ini
-{"video_path": null, "excel_path": null, "detection_info": {"detected": false, "nd_process": 0.0, "last_time": 0.0, "caption_boundings": [], "has_subtitle": true}, "speaker_info": {"speaker_id": "\u6653\u6653\uff0c\u5973\uff0c\u5e74\u8f7b\u4eba", "speaker_speed": "1.10(4.5\u5b57/\u79d2)"}}
\ No newline at end of file
+{"video_path": null, "excel_path": null, "detection_info": {"detected": false, "nd_process": 0.0, "last_time": 0.0, "caption_boundings": [], "has_subtitle": true}, "speaker_info": {"speaker_type": "\u6d59\u5927\u5185\u90e8tts", "speaker_id": "test\uff0c\u5973\uff0c\u5e74\u8f7b\u4eba", "speaker_speed": "1.00(4\u5b57/\u79d2)"}}
\ No newline at end of file
--- a/res/speaker_zju_audio/local_tts_example.wav
+++ b/res/speaker_zju_audio/local_tts_example.wav
--- a/res/speakers.json
+++ b/res/speakers.json
@@ -139,5 +139,16 @@
            "audio_path": "./res/speaker_audio/Yunye.wav",
            "speaker_code": "zh-CN-YunyeNeural"
        }
-    ]
+    ],
+    "speaker_zju_details": [{
+        "id": 0,
+        "name": "test",
+        "language": "中文（普通话，简体）",
+        "age_group": "年轻人",
+        "gender": "女",
+        "description": "休闲、放松的语音，用于自发性对话和会议听录。",
+        "audio_path": "./res/speaker_zju_audio/local_tts_example.wav",
+        "speaker_code": "",
+        "speaker_type":"1"
+    }]
 }
\ No newline at end of file
--- a/setting_dialog.py
+++ b/setting_dialog.py
@@ -8,6 +8,7 @@ from setting_dialog_ui import Ui_Dialog
 from utils import validate_and_get_filepath, replace_path_suffix

 import winsound
+import constant

 audioPlayed = winsound.PlaySound(None, winsound.SND_NODEFAULT)

@@ -19,41 +20,98 @@ class Setting_Dialog(QDialog, Ui_Dialog):
        self.setupUi(self)
        self.setWindowTitle("设置")
        self.projectContext = projectContext
-        # todo 把所有说话人都加上来
-        self.speaker_li = self.projectContext.get_all_speaker_info()
-        for i in self.speaker_li:
-            self.comboBox.addItem(i)
-        self.speed_li_2 = ["1.00(4字/秒)", "1.10(4.5字/秒)", "1.25(5字/秒)", "1.50(6字/秒)", "1.75(7字/秒)", "2.00(8字/秒)", "2.50(10字/秒)"]
-        self.comboBox_2.addItems(self.speed_li_2)
-
-        if self.projectContext.speaker_info is None:
-            self.comboBox.setCurrentIndex(0)
-        else:
-            self.comboBox.setCurrentIndex(self.speaker_li.index(self.projectContext.speaker_info))
-        if self.projectContext.speaker_speed is None:
-            self.comboBox_2.setCurrentIndex(0)
-        else:    
-            self.comboBox_2.setCurrentIndex(self.speed_li_2.index(self.projectContext.speaker_speed))
-
+        self.refresh(self.projectContext)
+        self.refresh_flag = False
+        self.clear_flag = False
+        self.comboBox_0.currentIndexChanged.connect(self.choose)
        self.comboBox.currentIndexChanged.connect(self.speaker_change_slot)
        self.comboBox_2.currentIndexChanged.connect(self.speed_change_slot)

        self.pushButton.clicked.connect(self.play_audio_slot)
-
+        
+
+    def refresh(self,projectContext):
+        try:
+            self.refresh_flag = True
+            self.clear_flag = True
+            self.comboBox_0.clear()
+            self.comboBox.clear()
+            self.comboBox_2.clear()
+            # todo 把所有说话人都加上来
+            self.speaker_li = projectContext.get_all_speaker_info()
+            self.speaker_zju_li = projectContext.get_all_speaker_zju_info() #本地tts
+            self.speed_list_zju = ["1.00(4字/秒)", "1.10(4.5字/秒)", "1.25(5字/秒)", "1.50(6字/秒)", "1.75(7字/秒)", "2.00(8字/秒)", "2.50(10字/秒)"] #本地tts
+            
+            # for i in self.speaker_li:
+            #     self.comboBox.addItem(i)
+            self.speed_li_2 = ["1.00(4字/秒)", "1.10(4.5字/秒)", "1.25(5字/秒)", "1.50(6字/秒)", "1.75(7字/秒)", "2.00(8字/秒)", "2.50(10字/秒)"]
+            # self.comboBox_2.addItems(self.speed_li_2)
+            self.speaker_types = ["科大讯飞", "浙大内部tts"]
+            self.comboBox_0.addItems(self.speaker_types)
+            print(projectContext.speaker_type)
+            if projectContext.speaker_type is None or projectContext.speaker_type == "":
+                self.comboBox_0.setCurrentIndex(0)
+            else:
+                self.comboBox_0.setCurrentIndex(self.speaker_types.index(projectContext.speaker_type))
+
+            if self.comboBox_0.currentIndex() ==0: #讯飞
+                self.comboBox.addItems(self.speaker_li)
+                self.comboBox_2.addItems(self.speed_li_2)
+            else:
+                # local
+                self.comboBox.addItems(self.speaker_zju_li)
+                self.comboBox_2.addItems(self.speed_list_zju)
+            self.clear_flag = False
+
+            if projectContext.speaker_info is None or projectContext.speaker_info == "":
+                self.comboBox.setCurrentIndex(0)
+            else:
+                print(projectContext.speaker_info)
+                self.comboBox.setCurrentIndex(self.speaker_li.index(projectContext.speaker_info) if self.comboBox_0.currentIndex() ==0 else self.speaker_zju_li.index(projectContext.speaker_info))
+
+            print(projectContext.speaker_speed)
+            if projectContext.speaker_speed is None or projectContext.speaker_speed == "":
+                self.comboBox_2.setCurrentIndex(0)
+            else:    
+                self.comboBox_2.setCurrentIndex(self.speed_li_2.index(projectContext.speaker_speed) if self.comboBox_0.currentIndex() ==0 else self.speed_list_zju.index(projectContext.speaker_speed))
+        finally:
+            self.refresh_flag = False
+
+    def choose(self):
+        if self.refresh_flag:
+            return
+        print(self.comboBox_0.currentIndex())
+        self.comboBox.clear()
+        self.comboBox_2.clear()
+        self.projectContext.speaker_type = self.comboBox_0.currentText()
+        if self.comboBox_0.currentIndex() ==0:
+            print("讯飞")
+            self.comboBox.addItems(self.speaker_li)
+            self.comboBox_2.addItems(self.speed_li_2)
+            # constant.Content.SpeedList.clear()
+            # constant.Content.SpeedList = self.speed_li_2
+        else:
+            print("local")
+            self.comboBox.addItems(self.speaker_zju_li)
+            self.comboBox_2.addItems(self.speed_list_zju)
+            # constant.Content.SpeedList.clear()
+            # constant.Content.SpeedList = self.speed_list_zju
    def content_fresh(self):
        """刷新界面中的内容

        将工程信息中的说话人信息、说话人语速更新到界面中，如果未选择则初始化为第一个选项

        """
-        if self.projectContext.speaker_info is None:
+        print(self.projectContext.speaker_info)
+        if self.projectContext.speaker_info is None or self.projectContext.speaker_info == "" :
            self.comboBox.setCurrentIndex(0)
        else:
-            self.comboBox.setCurrentIndex(self.speaker_li.index(self.projectContext.speaker_info))
-        if self.projectContext.speaker_speed is None:
+            self.comboBox.setCurrentIndex(self.speaker_li.index(self.projectContext.speaker_info) if self.comboBox_0.currentIndex() ==0 else self.speaker_zju_li.index(self.projectContext.speaker_info))
+            
+        if self.projectContext.speaker_speed is None or self.projectContext.speaker_speed == "":
            self.comboBox_2.setCurrentIndex(0)
        else:    
-            self.comboBox_2.setCurrentIndex(self.speed_li_2.index(self.projectContext.speaker_speed))
+            self.comboBox_2.setCurrentIndex(self.speed_li_2.index(self.projectContext.speaker_speed) if self.comboBox_0.currentIndex() ==0 else self.speed_list_zju.index(self.projectContext.speaker_speed))

    def speaker_change_slot(self):
        """切换说话人
@@ -61,6 +119,8 @@ class Setting_Dialog(QDialog, Ui_Dialog):
        将当前的说话人设置为工程的说话人，并保存到配置文件中

        """
+        if self.clear_flag:
+            return
        self.projectContext.speaker_info = self.comboBox.currentText()
        self.projectContext.save_conf()
        # print("self.projectContext.speaker_info:", self.projectContext.speaker_info)
@@ -71,6 +131,8 @@ class Setting_Dialog(QDialog, Ui_Dialog):
        将当前的语速设置为工程的语速，并保存到配置文件中

        """
+        if self.clear_flag:
+            return
        self.projectContext.speaker_speed = self.comboBox_2.currentText()
        self.projectContext.save_conf()


--- a/setting_dialog_ui.py
+++ b/setting_dialog_ui.py
@@ -19,20 +19,32 @@ class Ui_Dialog(object):
        self.gridLayout_2.setObjectName("gridLayout_2")
        self.gridLayout = QtWidgets.QGridLayout()
        self.gridLayout.setObjectName("gridLayout")
+
+        self.label_2 = QtWidgets.QLabel(Dialog)
+        self.label_2.setObjectName("label_2")
+        self.gridLayout.addWidget(self.label_2, 0, 0, 1, 1)
+        self.comboBox_0 = QtWidgets.QComboBox(Dialog)
+        self.comboBox_0.setCurrentText("")
+        self.comboBox_0.setObjectName("comboBox_0")
+        self.gridLayout.addWidget(self.comboBox_0, 0, 1, 1, 1)
+
        self.label_3 = QtWidgets.QLabel(Dialog)
        self.label_3.setObjectName("label_3")
-        self.gridLayout.addWidget(self.label_3, 0, 0, 1, 1)
+        self.gridLayout.addWidget(self.label_3, 1, 0, 1, 1)
        self.comboBox = QtWidgets.QComboBox(Dialog)
        self.comboBox.setCurrentText("")
        self.comboBox.setObjectName("comboBox")
-        self.gridLayout.addWidget(self.comboBox, 0, 1, 1, 1)
+        self.gridLayout.addWidget(self.comboBox, 1, 1, 1, 1)
+
+
        self.label_4 = QtWidgets.QLabel(Dialog)
        self.label_4.setObjectName("label_4")
-        self.gridLayout.addWidget(self.label_4, 1, 0, 1, 1)
+        self.gridLayout.addWidget(self.label_4, 2, 0, 1, 1)
        self.comboBox_2 = QtWidgets.QComboBox(Dialog)
        self.comboBox_2.setCurrentText("")
        self.comboBox_2.setObjectName("comboBox_2")
-        self.gridLayout.addWidget(self.comboBox_2, 1, 1, 1, 1)
+        self.gridLayout.addWidget(self.comboBox_2, 2, 1, 1, 1)
+
        self.gridLayout.setRowMinimumHeight(0, 60)
        self.gridLayout.setRowMinimumHeight(1, 60)
        self.gridLayout.setColumnStretch(1, 1)
@@ -50,6 +62,8 @@ class Ui_Dialog(object):
    def retranslateUi(self, Dialog):
        _translate = QtCore.QCoreApplication.translate
        Dialog.setWindowTitle(_translate("Dialog", "Dialog"))
+        self.label_2.setText(_translate("Dialog", "TTS引擎"))
+        self.label_3.setText(_translate("Dialog", "旁白说话人："))
        self.label_3.setText(_translate("Dialog", "旁白说话人："))
        self.label_4.setText(_translate("Dialog", "旁白语速："))
        self.pushButton.setText(_translate("Dialog", "播放样例音频"))
--- a/speech_synthesis.py
+++ b/speech_synthesis.py
@@ -27,6 +27,7 @@ from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, Resu
 from azure.cognitiveservices.speech.audio import AudioOutputConfig
 import openpyxl
 import shutil
+from vits_chinese import tts

 tmp_file = 'tmp.wav'
 adjusted_wav_path = "adjusted.wav"
@@ -53,6 +54,8 @@ class Speaker:
        self.speaker_code = speaker_info["speaker_code"]
        self.description = speaker_info["description"]
        self.voice_example = speaker_info["audio_path"]
+        self.speaker_type = speaker_info["speaker_type"] if "speaker_type" in speaker_info else None    #speakers.json里面新加字段speaker_type =1 表示用local tts
+


 def init_speakers():
@@ -94,44 +97,48 @@ def speech_synthesis(text: str, output_file: str, speaker: Speaker, speed: float
        speed (float, optional): 指定的音频语速. Defaults to 1.0.

    """
-    speech_config = SpeechConfig(
-        subscription="db34d38d2d3447d482e0f977c66bd624",
-        region="eastus"
-    )
-
-    speech_config.speech_synthesis_language = "zh-CN"
-    speech_config.speech_synthesis_voice_name = speaker.speaker_code
-
-    # 先把合成的语音文件输出得到tmp.wav中，便于可能的调速需求
    if not os.path.exists(os.path.dirname(output_file)):  # 如果路径不存在
-        print("output_file路径不存在，创建:", os.path.dirname(output_file))
-        os.makedirs(os.path.dirname(output_file))
-    synthesizer = SpeechSynthesizer(speech_config=speech_config, audio_config=None)
-    ssml_string = f"""
-    <speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="{speech_config.speech_synthesis_language}">
-        <voice name="{speaker.speaker_code}">
-            <prosody rate="{round((speed - 1.0) * 100, 2)}%">
-                {text}
-            </prosody>
-        </voice>
-    </speak>"""
-    result = synthesizer.speak_ssml_async(ssml_string).get()
-    stream = AudioDataStream(result)
-    stream.save_to_wav_file(output_file)
-    print(result.reason)
-
-    while result.reason == ResultReason.Canceled:
-        cancellation_details = result.cancellation_details
-        print("取消的原因", cancellation_details.reason, cancellation_details.error_details)
-        time.sleep(1)
-        synthesizer.stop_speaking()
-        del synthesizer
+            print("output_file路径不存在，创建:", os.path.dirname(output_file))
+            os.makedirs(os.path.dirname(output_file))
+    if speaker.speaker_type != None and speaker.speaker_type == "1":
+        tts(text, speed, output_file)
+    else:
+        speech_config = SpeechConfig(
+            subscription="db34d38d2d3447d482e0f977c66bd624",
+            region="eastus"
+        )
+
+        speech_config.speech_synthesis_language = "zh-CN"
+        speech_config.speech_synthesis_voice_name = speaker.speaker_code
+
+        # 先把合成的语音文件输出得到tmp.wav中，便于可能的调速需求
+        
        synthesizer = SpeechSynthesizer(speech_config=speech_config, audio_config=None)
+        ssml_string = f"""
+        <speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="{speech_config.speech_synthesis_language}">
+            <voice name="{speaker.speaker_code}">
+                <prosody rate="{round((speed - 1.0) * 100, 2)}%">
+                    {text}
+                </prosody>
+            </voice>
+        </speak>"""
        result = synthesizer.speak_ssml_async(ssml_string).get()
        stream = AudioDataStream(result)
        stream.save_to_wav_file(output_file)
        print(result.reason)

+        while result.reason == ResultReason.Canceled:
+            cancellation_details = result.cancellation_details
+            print("取消的原因", cancellation_details.reason, cancellation_details.error_details)
+            time.sleep(1)
+            synthesizer.stop_speaking()
+            del synthesizer
+            synthesizer = SpeechSynthesizer(speech_config=speech_config, audio_config=None)
+            result = synthesizer.speak_ssml_async(ssml_string).get()
+            stream = AudioDataStream(result)
+            stream.save_to_wav_file(output_file)
+            print(result.reason)
+
 # detached
 def change_speed_and_volume(wav_path: str, speed: float = 1.0):
    """调整语速，顺便把音量调大，语音合成的声音太小了

--- a/vits_chinese/README.md
+++ b/vits_chinese/README.md
+### 安装环境
+```
+    pip install -r requirements.txt
+```
+### 接口
+infer.py
\ No newline at end of file
--- a/vits_chinese/__init__.py
+++ b/vits_chinese/__init__.py
+import sys 
+import os
+sys.path.append(os.path.dirname(__file__))
+
+from .infer import tts
+from .utils import get_hparams_from_file
\ No newline at end of file
--- a/vits_chinese/attentions.py
+++ b/vits_chinese/attentions.py
--- a/vits_chinese/bert/ProsodyModel.py
+++ b/vits_chinese/bert/ProsodyModel.py
+import os
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+from transformers import BertModel, BertConfig, BertTokenizer
+
+
+class CharEmbedding(nn.Module):
+    def __init__(self, model_dir):
+        super().__init__()
+        self.tokenizer = BertTokenizer.from_pretrained(model_dir)
+        self.bert_config = BertConfig.from_pretrained(model_dir)
+        self.hidden_size = self.bert_config.hidden_size
+        self.bert = BertModel(self.bert_config)
+        self.proj = nn.Linear(self.hidden_size, 256)
+        self.linear = nn.Linear(256, 3)
+
+    def text2Token(self, text):
+        token = self.tokenizer.tokenize(text)
+        txtid = self.tokenizer.convert_tokens_to_ids(token)
+        return txtid
+
+    def forward(self, inputs_ids, inputs_masks, tokens_type_ids):
+        out_seq = self.bert(input_ids=inputs_ids,
+                            attention_mask=inputs_masks,
+                            token_type_ids=tokens_type_ids)[0]
+        out_seq = self.proj(out_seq)
+        return out_seq
+
+
+class TTSProsody(object):
+    def __init__(self, path, device):
+        self.device = device
+        self.char_model = CharEmbedding(path)
+        self.char_model.load_state_dict(
+            torch.load(
+                os.path.join(path, 'prosody_model.pt'),
+                map_location="cpu"
+            ),
+            strict=False
+        )
+        self.char_model.eval()
+        self.char_model.to(self.device)
+
+    def get_char_embeds(self, text):
+        input_ids = self.char_model.text2Token(text)
+        input_masks = [1] * len(input_ids)
+        type_ids = [0] * len(input_ids)
+        input_ids = torch.LongTensor([input_ids]).to(self.device)
+        input_masks = torch.LongTensor([input_masks]).to(self.device)
+        type_ids = torch.LongTensor([type_ids]).to(self.device)
+
+        with torch.no_grad():
+            char_embeds = self.char_model(
+                input_ids, input_masks, type_ids).squeeze(0).cpu()
+        return char_embeds
+
+    def expand_for_phone(self, char_embeds, length):  # length of phones for char
+        assert char_embeds.size(0) == len(length)
+        expand_vecs = list()
+        for vec, leng in zip(char_embeds, length):
+            vec = vec.expand(leng, -1)
+            expand_vecs.append(vec)
+        expand_embeds = torch.cat(expand_vecs, 0)
+        assert expand_embeds.size(0) == sum(length)
+        return expand_embeds.numpy()
+
+
+if __name__ == "__main__":
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    prosody = TTSProsody('./bert/', device)
+    while True:
+        text = input("请输入文本：")
+        prosody.get_char_embeds(text)
--- a/vits_chinese/bert/__init__.py
+++ b/vits_chinese/bert/__init__.py
+from .ProsodyModel import TTSProsody
\ No newline at end of file
--- a/vits_chinese/bert/config.json
+++ b/vits_chinese/bert/config.json
+{
+  "attention_probs_dropout_prob": 0.1, 
+  "directionality": "bidi", 
+  "hidden_act": "gelu", 
+  "hidden_dropout_prob": 0.1, 
+  "hidden_size": 768, 
+  "initializer_range": 0.02, 
+  "intermediate_size": 3072, 
+  "max_position_embeddings": 512, 
+  "num_attention_heads": 12, 
+  "num_hidden_layers": 12, 
+  "pooler_fc_size": 768, 
+  "pooler_num_attention_heads": 12, 
+  "pooler_num_fc_layers": 3, 
+  "pooler_size_per_head": 128, 
+  "pooler_type": "first_token_transform", 
+  "type_vocab_size": 2, 
+  "vocab_size": 21128
+}
--- a/vits_chinese/bert/prosody_model.pt
+++ b/vits_chinese/bert/prosody_model.pt
--- a/vits_chinese/bert/prosody_tool.py
+++ b/vits_chinese/bert/prosody_tool.py
--- a/vits_chinese/bert/vocab.txt
+++ b/vits_chinese/bert/vocab.txt
--- a/vits_chinese/commons.py
+++ b/vits_chinese/commons.py
--- a/vits_chinese/configs/bert_vits.json
+++ b/vits_chinese/configs/bert_vits.json
--- a/vits_chinese/infer.py
+++ b/vits_chinese/infer.py
--- a/vits_chinese/models.py
+++ b/vits_chinese/models.py
--- a/vits_chinese/modules.py
+++ b/vits_chinese/modules.py
--- a/vits_chinese/requirements.txt
+++ b/vits_chinese/requirements.txt
--- a/vits_chinese/text/__init__.py
+++ b/vits_chinese/text/__init__.py
--- a/vits_chinese/text/symbols.py
+++ b/vits_chinese/text/symbols.py
--- a/vits_chinese/transforms.py
+++ b/vits_chinese/transforms.py
--- a/vits_chinese/utils.py
+++ b/vits_chinese/utils.py
--- a/vits_chinese/vits_bert_model.pth
+++ b/vits_chinese/vits_bert_model.pth
--- a/vits_chinese/vits_pinyin.py
+++ b/vits_chinese/vits_pinyin.py