whisper is better

2024-09-26 11:01:15 +02:00 · 2024-09-26 11:01:15 +02:00 · ab12b796ec
commit ab12b796ec
parent 8cc9b1b015
2 changed files with 9 additions and 50 deletions
--- a/py/api.py
+++ b/py/api.py
@ -99,16 +99,9 @@ class API:
        @self.app.route('/interstellar_ai/api/voice_recognition', methods=['POST'])
        def voice_recognition():
            print(request.args)
            recog_type = request.form.get('type')
            print(recog_type)
            audio = request.files.get('audio')
-            option = request.form.get('option')
+            text = self.voice.recognition(audio)
-            if recog_type == "basic":
+            return jsonify({'status': 200, 'response': text})
                text = self.voice.basic_recognition(audio, option)
                return jsonify({'status': 200, 'response': text})
            else:
                return jsonify({'status': 401, 'response': "Invalid type"})
        @self.app.route('/interstellar_ai/api/weather', methods=['POST'])
        def get_weather():
--- a/py/voice.py
+++ b/py/voice.py
@ -1,44 +1,10 @@
-import speech_recognition as sr
+import whisper
 from pydub import AudioSegment
 class VoiceRecognition:
-    def check_audio_format(self, file_path):
+    @staticmethod
-        try:
+    def recognition(audio):
-            audio = AudioSegment.from_ogg(file_path)
+        model = whisper.load_model("base")
-            print(f"Audio format: {audio.format}")
+        result = model.transcribe(audio)
-            return True
+        print(result["text"])
-        except Exception as e:
+        return result["text"]
            print(f"Error reading audio file: {e}")
            return False
    def basic_recognition(self, audio, option):
        print(type(audio))
        print("preparing")
        r = sr.Recognizer()
        # Read the data from the FileStorage object
        audio_data = audio.read()
        # Write the audio data to a file
        with open('output.wav', 'wb') as file:
            file.write(audio_data)
        self.check_audio_format(audio)
        if option == "online":
            with sr.AudioFile(audio) as source:
                print(type(source))
                print("online")
                text = r.recognize_google_cloud(source)
                print("recognized as: " + text)
                return text
        elif option == "offline":
            with sr.AudioFile(audio) as source:
                print(type(source))
                print("offline")
                text = r.recognize_sphinx(source)
                print("recognized as: " + text)
                return text
        print("nothing")
        return False