From f14dea891c6d6327beb058546485c2367ecd01f0 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 16:38:34 +0800
Subject: [PATCH 01/14] feat(AndroidManifest): Allowed clear text traffic
 (HTTP).

Refs:
- https://blog.csdn.net/gengkui9897/article/details/82863966
- https://stackoverflow.com/questions/45940861/android-8-cleartext-http-traffic-not-permitted
---
 android/app/src/main/AndroidManifest.xml | 1 +
 1 file changed, 1 insertion(+)
diff --git a/android/app/src/main/AndroidManifest.xml b/android/app/src/main/AndroidManifest.xml
index 0924a66..a97254c 100644
--- a/android/app/src/main/AndroidManifest.xml
+++ b/android/app/src/main/AndroidManifest.xml
@@ -12,6 +12,7 @@
         android:roundIcon="@mipmap/ic_launcher_round"
         android:supportsRtl="true"
         android:theme="@style/Theme.WhisperToInput"
+        android:usesCleartextTraffic="true"
         tools:targetApi="31">
         <service android:name=".WhisperInputService"
             android:label="Whisper Input"

From 9331e27364fcc263d2b5d97d83a302bea3c2cdce Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 16:45:56 +0800
Subject: [PATCH 02/14] feat(.WhisperTranscriber): Connected with self-hosted
 inference server.

Refs:
- Studying of request bodies of the self-hosted server.
- https://platform.openai.com/docs/guides/speech-to-text
- https://zh.wikipedia.org/wiki/%E4%BA%92%E8%81%94%E7%BD%91%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B (audio/mp4 not listed in the English page)
- https://stackoverflow.com/questions/24279563/uploading-a-large-file-in-multipart-using-okhttp
- https://blog.csdn.net/XuWei1213/article/details/79693340
---
 android/app/build.gradle.kts                  |  1 -
 .../whispertoinput/WhisperTranscriber.kt      | 53 ++++++++++---------
 2 files changed, 28 insertions(+), 26 deletions(-)

diff --git a/android/app/build.gradle.kts b/android/app/build.gradle.kts
index 0c81a39..539e668 100644
--- a/android/app/build.gradle.kts
+++ b/android/app/build.gradle.kts
@@ -36,7 +36,6 @@ android {
 }
 
 dependencies {
-    implementation("com.aallam.openai:openai-client:3.5.1")
     implementation("io.ktor:ktor-client-okhttp:2.3.6")
     implementation("androidx.core:core-ktx:1.9.0")
     implementation("androidx.appcompat:appcompat:1.6.1")
diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
index 5316d61..556ee64 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
@@ -1,16 +1,14 @@
 package com.example.whispertoinput
 
 import android.content.Context
-import android.util.Log
-import com.aallam.openai.api.audio.TranscriptionRequest
-import com.aallam.openai.api.file.FileSource
-import com.aallam.openai.api.model.ModelId
-import com.aallam.openai.client.OpenAI
 import kotlinx.coroutines.*
-import kotlinx.coroutines.flow.first
-import kotlinx.coroutines.flow.map
-import okio.FileSystem
-import okio.Path.Companion.toPath
+import okhttp3.MediaType.Companion.toMediaTypeOrNull
+import okhttp3.MultipartBody
+import okhttp3.OkHttpClient
+import okhttp3.Request
+import okhttp3.RequestBody
+import okhttp3.RequestBody.Companion.asRequestBody
+import java.io.File
 
 class WhisperTranscriber {
     private var currentTranscriptionJob: Job? = null
@@ -22,23 +20,14 @@ class WhisperTranscriber {
         exceptionCallback: (String) -> Unit
     ) {
         suspend fun makeWhisperRequest(): String {
-            val apiKey = context.dataStore.data.map { preferences ->
-                preferences[API_KEY]
-            }.first()
-            val openai = OpenAI(
-                token = apiKey ?: "",
+            val client = OkHttpClient()
+            val request = buildWhisperRequest(
+                filename,
+                "http://192.168.1.110:9000/asr?encode=true&task=transcribe&language=zh&word_timestamps=false&output=txt",
+                "audio/mp4"
             )
-            val request = TranscriptionRequest(
-                audio = FileSource(
-                    name = filename,
-                    source = FileSystem.SYSTEM.source(filename.toPath())
-                ),
-                model = ModelId("whisper-1"),
-                language = "zh"
-            )
-            val transcription = openai.transcription(request)
-
-            return transcription.text
+            val response = client.newCall(request).execute()
+            return response.body!!.string()
         }
 
         // Create a cancellable job in the main thread (for UI updating)
@@ -79,4 +68,18 @@ class WhisperTranscriber {
         currentTranscriptionJob?.cancel()
         currentTranscriptionJob = job
     }
+
+    private fun buildWhisperRequest(filename: String, url: String, mediaType: String): Request {
+        val file: File = File(filename)
+        val fileBody: RequestBody = file.asRequestBody(mediaType.toMediaTypeOrNull())
+        val requestBody: RequestBody = MultipartBody.Builder()
+            .setType(MultipartBody.FORM)
+            .addFormDataPart("audio_file", "@audio.m4a", fileBody)
+            .build()
+
+        return Request.Builder()
+            .url(url)
+            .post(requestBody)
+            .build()
+    }
 }

From 16a0fbc894d8fa55253e46abc53b936fb2dcb0d3 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 17:41:41 +0800
Subject: [PATCH 03/14] feat(activity_main.xml): Added fields in UI for
 endpoint and language code configuration.

---
 .../app/src/main/res/layout/activity_main.xml | 96 +++++++++++++------
 1 file changed, 68 insertions(+), 28 deletions(-)

diff --git a/android/app/src/main/res/layout/activity_main.xml b/android/app/src/main/res/layout/activity_main.xml
index 6527c4b..36c76ac 100644
--- a/android/app/src/main/res/layout/activity_main.xml
+++ b/android/app/src/main/res/layout/activity_main.xml
@@ -18,64 +18,104 @@
         app:layout_constraintStart_toStartOf="parent"
         app:layout_constraintTop_toTopOf="parent" />
 
+    <TextView
+        android:id="@+id/label_microphone"
+        android:layout_width="0dp"
+        android:layout_height="0dp"
+        android:gravity="center_vertical"
+        android:text="@string/microphone"
+        android:textStyle="bold"
+        app:layout_constraintBottom_toBottomOf="@+id/btn_mic_permission"
+        app:layout_constraintEnd_toStartOf="@+id/btn_mic_permission"
+        app:layout_constraintStart_toStartOf="@+id/label_endpoint"
+        app:layout_constraintTop_toTopOf="@+id/btn_mic_permission" />
+
     <Button
         android:id="@+id/btn_mic_permission"
         android:layout_width="wrap_content"
         android:layout_height="wrap_content"
-        android:layout_marginTop="32dp"
+        android:layout_marginTop="24dp"
         android:onClick="onRequestMicrophonePermission"
         android:text="@string/grant_microphone_permission"
-        app:layout_constraintEnd_toEndOf="@+id/btn_set_api_key"
+        app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
         app:layout_constraintStart_toEndOf="@+id/label_microphone"
-        app:layout_constraintTop_toBottomOf="@+id/edittext_api_key" />
+        app:layout_constraintTop_toBottomOf="@+id/edittext_language_code" />
 
     <TextView
-        android:id="@+id/label_api_key"
+        android:id="@+id/label_endpoint"
         android:layout_width="wrap_content"
         android:layout_height="0dp"
+        android:layout_marginStart="32dp"
         android:gravity="center_vertical"
-        android:text="@string/api_key"
+        android:text="Endpoint"
         android:textStyle="bold"
-        app:layout_constraintBottom_toBottomOf="@+id/edittext_api_key"
-        app:layout_constraintEnd_toStartOf="@+id/edittext_api_key"
+        app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
+        app:layout_constraintEnd_toStartOf="@+id/edittext_endpoint"
         app:layout_constraintStart_toStartOf="parent"
-        app:layout_constraintTop_toTopOf="@+id/edittext_api_key" />
+        app:layout_constraintTop_toTopOf="@+id/edittext_endpoint" />
 
-    <TextView
-        android:id="@+id/label_microphone"
+    <EditText
+        android:id="@+id/edittext_endpoint"
         android:layout_width="0dp"
+        android:layout_height="wrap_content"
+        android:layout_marginStart="24dp"
+        android:layout_marginTop="48dp"
+        android:layout_marginEnd="16dp"
+        android:ems="10"
+        android:gravity="start|top"
+        android:hint="example: http://<host>:<port>/asr"
+        android:inputType="textMultiLine"
+        android:minHeight="48dp"
+        app:layout_constraintEnd_toStartOf="@+id/btn_set_endpoint"
+        app:layout_constraintStart_toEndOf="@+id/label_endpoint"
+        app:layout_constraintTop_toBottomOf="@+id/label_title" />
+
+    <Button
+        android:id="@+id/btn_set_endpoint"
+        android:layout_width="wrap_content"
+        android:layout_height="wrap_content"
+        android:layout_marginEnd="32dp"
+        android:text="@string/set"
+        app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
+        app:layout_constraintEnd_toEndOf="parent"
+        app:layout_constraintStart_toEndOf="@+id/edittext_endpoint"
+        app:layout_constraintTop_toTopOf="@+id/edittext_endpoint" />
+
+    <TextView
+        android:id="@+id/label_language_code"
+        android:layout_width="wrap_content"
         android:layout_height="0dp"
         android:gravity="center_vertical"
-        android:text="@string/microphone"
+        android:text="Language Code"
         android:textStyle="bold"
-        app:layout_constraintBottom_toBottomOf="@+id/btn_mic_permission"
-        app:layout_constraintEnd_toStartOf="@+id/btn_mic_permission"
-        app:layout_constraintStart_toStartOf="@+id/label_api_key"
-        app:layout_constraintTop_toTopOf="@+id/btn_mic_permission" />
+        app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
+        app:layout_constraintEnd_toStartOf="@+id/edittext_language_code"
+        app:layout_constraintStart_toStartOf="@+id/label_endpoint"
+        app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
 
     <EditText
-        android:id="@+id/edittext_api_key"
-        android:layout_width="wrap_content"
+        android:id="@+id/edittext_language_code"
+        android:layout_width="0dp"
         android:layout_height="wrap_content"
-        android:layout_marginStart="24dp"
-        android:layout_marginTop="48dp"
+        android:layout_marginTop="24dp"
+        android:layout_marginEnd="16dp"
         android:ems="10"
         android:gravity="start|top"
-        android:hint="@string/enter_openai_api_key"
+        android:hint="Enter Language Code (e.g., en, zh)"
         android:inputType="textMultiLine"
         android:minHeight="48dp"
-        app:layout_constraintEnd_toStartOf="@+id/btn_set_api_key"
-        app:layout_constraintStart_toEndOf="@+id/label_api_key"
-        app:layout_constraintTop_toBottomOf="@+id/label_title" />
+        app:layout_constraintEnd_toStartOf="@+id/btn_set_language_code"
+        app:layout_constraintStart_toEndOf="@+id/label_language_code"
+        app:layout_constraintTop_toBottomOf="@+id/edittext_endpoint" />
 
     <Button
-        android:id="@+id/btn_set_api_key"
+        android:id="@+id/btn_set_language_code"
         android:layout_width="wrap_content"
         android:layout_height="wrap_content"
         android:text="@string/set"
-        app:layout_constraintBottom_toBottomOf="@+id/edittext_api_key"
-        app:layout_constraintEnd_toEndOf="parent"
-        app:layout_constraintStart_toEndOf="@+id/edittext_api_key"
-        app:layout_constraintTop_toTopOf="@+id/edittext_api_key" />
+        app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
+        app:layout_constraintEnd_toEndOf="@id/btn_set_endpoint"
+        app:layout_constraintStart_toEndOf="@+id/edittext_language_code"
+        app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
 
 </androidx.constraintlayout.widget.ConstraintLayout>
\ No newline at end of file

From 3ae62f46517add60bc4ce0cb74148ee2c3c08f06 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 17:44:32 +0800
Subject: [PATCH 04/14] feat(): Extracted string resources.

---
 android/app/src/main/res/layout/activity_main.xml | 8 ++++----
 android/app/src/main/res/values/strings.xml       | 6 ++++--
 2 files changed, 8 insertions(+), 6 deletions(-)

diff --git a/android/app/src/main/res/layout/activity_main.xml b/android/app/src/main/res/layout/activity_main.xml
index 36c76ac..5b1f472 100644
--- a/android/app/src/main/res/layout/activity_main.xml
+++ b/android/app/src/main/res/layout/activity_main.xml
@@ -47,7 +47,7 @@
         android:layout_height="0dp"
         android:layout_marginStart="32dp"
         android:gravity="center_vertical"
-        android:text="Endpoint"
+        android:text="@string/endpoint"
         android:textStyle="bold"
         app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
         app:layout_constraintEnd_toStartOf="@+id/edittext_endpoint"
@@ -63,7 +63,7 @@
         android:layout_marginEnd="16dp"
         android:ems="10"
         android:gravity="start|top"
-        android:hint="example: http://<host>:<port>/asr"
+        android:hint="@string/endpoint_hint"
         android:inputType="textMultiLine"
         android:minHeight="48dp"
         app:layout_constraintEnd_toStartOf="@+id/btn_set_endpoint"
@@ -86,7 +86,7 @@
         android:layout_width="wrap_content"
         android:layout_height="0dp"
         android:gravity="center_vertical"
-        android:text="Language Code"
+        android:text="@string/language_code"
         android:textStyle="bold"
         app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
         app:layout_constraintEnd_toStartOf="@+id/edittext_language_code"
@@ -101,7 +101,7 @@
         android:layout_marginEnd="16dp"
         android:ems="10"
         android:gravity="start|top"
-        android:hint="Enter Language Code (e.g., en, zh)"
+        android:hint="@string/language_code_hint"
         android:inputType="textMultiLine"
         android:minHeight="48dp"
         app:layout_constraintEnd_toStartOf="@+id/btn_set_language_code"
diff --git a/android/app/src/main/res/values/strings.xml b/android/app/src/main/res/values/strings.xml
index ee8ca4b..491b0c3 100644
--- a/android/app/src/main/res/values/strings.xml
+++ b/android/app/src/main/res/values/strings.xml
@@ -8,10 +8,12 @@
     <string name="start_transcribing">Start transcribing.</string>
     <string name="grant_microphone_permission">Grant Microphone Permission</string>
     <string name="mic_permission_required">Whisper to Input requires microphone usage to work.</string>
-    <string name="enter_openai_api_key">Enter OpenAI API Key</string>
-    <string name="api_key">API Key</string>
     <string name="microphone">Microphone</string>
     <string name="set">Set</string>
     <string name="loading">Loading...</string>
     <string name="api_key_successfully_set">API Key successfully set!</string>
+    <string name="endpoint">Endpoint</string>
+    <string name="endpoint_hint"><![CDATA[e.g., http://<host>:<port>/asr]]></string>
+    <string name="language_code">Language Code</string>
+    <string name="language_code_hint">Enter Language Code (e.g., en, zh)</string>
 </resources>
\ No newline at end of file

From d78887eca7201b994cae8380475d4da22e2598ee Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 18:05:33 +0800
Subject: [PATCH 05/14] feat(.MainActivity): Dealt with new configs.

Ideally, both configuration handling and Datastore access should be refactored in the future.
---
 .../example/whispertoinput/MainActivity.kt    | 75 ++++++++++++-------
 android/app/src/main/res/values/strings.xml   |  2 +-
 2 files changed, 50 insertions(+), 27 deletions(-)

diff --git a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
index 953a419..16d80c1 100644
--- a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
@@ -21,7 +21,6 @@ import androidx.datastore.preferences.core.stringPreferencesKey
 import androidx.datastore.preferences.preferencesDataStore
 import kotlinx.coroutines.CoroutineScope
 import kotlinx.coroutines.Dispatchers
-import kotlinx.coroutines.delay
 import kotlinx.coroutines.flow.first
 import kotlinx.coroutines.flow.map
 import kotlinx.coroutines.launch
@@ -29,13 +28,14 @@ import kotlinx.coroutines.withContext
 
 private const val MICROPHONE_PERMISSION_REQUEST_CODE = 200
 val Context.dataStore: DataStore<Preferences> by preferencesDataStore(name = "settings")
-val API_KEY = stringPreferencesKey("api-key")
+val ENDPOINT = stringPreferencesKey("endpoint")
+val LANGUAGE_CODE = stringPreferencesKey("language-code")
 
 class MainActivity : AppCompatActivity() {
     override fun onCreate(savedInstanceState: Bundle?) {
         super.onCreate(savedInstanceState)
         setContentView(R.layout.activity_main)
-        setupApiKeyWidgets(this)
+        setupConfigWidgets(this)
         checkPermissions()
     }
 
@@ -54,53 +54,76 @@ class MainActivity : AppCompatActivity() {
         startActivity(intent)
     }
 
-    // Sets up API Key-related widgets.
-    private fun setupApiKeyWidgets(context: Context) {
+    // Sets up config widgets.
+    private fun setupConfigWidgets(context: Context) {
+        // TODO: Refactor. Perhaps use a class to process configuration UI and behaviors.
         // Launches a non-blocking job in the main thread.
         // Perform data retrieval in the IO thread.
-        val apiKeyInput: EditText = findViewById(R.id.edittext_api_key)
-        val btnSetApiKey: Button = findViewById(R.id.btn_set_api_key)
+        val endpointInput: EditText = findViewById(R.id.edittext_endpoint)
+        val btnSetEndpoint: Button = findViewById(R.id.btn_set_endpoint)
+        val languageCodeInput: EditText = findViewById(R.id.edittext_language_code)
+        val btnSetLanguageCode: Button = findViewById(R.id.btn_set_language_code)
 
         CoroutineScope(Dispatchers.Main).launch {
 
             // Disable input & button, and show loading hint
-            apiKeyInput.isEnabled = false
-            apiKeyInput.hint = getString(R.string.loading)
-            btnSetApiKey.isEnabled = false
+            endpointInput.isEnabled = false
+            endpointInput.hint = getString(R.string.loading)
+            btnSetEndpoint.isEnabled = false
+            languageCodeInput.isEnabled = false
+            languageCodeInput.hint = getString(R.string.loading)
+            btnSetLanguageCode.isEnabled = false
+
+            // Retrieve stored endpoint & language code
+            val retrievedEndpoint = withContext(Dispatchers.IO) {
+                return@withContext dataStore.data.map { preferences ->
+                    preferences[ENDPOINT]
+                }.first()
+            }
 
-            // Retrieve Api Key
-            val retrievedApiKey = withContext(Dispatchers.IO) {
+            val retrievedLanguageCode = withContext(Dispatchers.IO) {
                 return@withContext dataStore.data.map { preferences ->
-                    preferences[API_KEY]
+                    preferences[LANGUAGE_CODE]
                 }.first()
             }
 
-            // Set retrieved api key in input, or set "Enter API Key" hint
-            if (retrievedApiKey.isNullOrEmpty()) {
-                apiKeyInput.hint = getString(R.string.enter_openai_api_key)
+            // Set retrieved endpoint in input, or set hint
+            if (retrievedEndpoint.isNullOrEmpty()) {
+                endpointInput.hint = getString(R.string.endpoint_hint)
             } else {
-                apiKeyInput.setText(retrievedApiKey)
+                endpointInput.setText(retrievedEndpoint)
             }
 
-            // Re-enable input & button
-            apiKeyInput.isEnabled = true
-            btnSetApiKey.isEnabled = true
+            // Set retrieved endpoint input, or set hint
+            // TODO: This could a dropdown list?
+            if (retrievedLanguageCode.isNullOrEmpty()) {
+                languageCodeInput.hint = getString(R.string.language_code_hint)
+            } else {
+                languageCodeInput.setText(retrievedLanguageCode)
+            }
 
-            // After retrieval is done, assign onClick event to the setApiKey button
-            btnSetApiKey.setOnClickListener { onSetApiKey(context, apiKeyInput.text.toString()) }
+            // Re-enable input & button
+            endpointInput.isEnabled = true
+            btnSetEndpoint.isEnabled = true
+            languageCodeInput.isEnabled = true
+            btnSetLanguageCode.isEnabled = true
+
+            // After retrieval is done, assign onClick event to the set buttons
+            btnSetEndpoint.setOnClickListener { onSetConfig(context, ENDPOINT, endpointInput.text.toString()) }
+            btnSetLanguageCode.setOnClickListener { onSetConfig(context, LANGUAGE_CODE, languageCodeInput.text.toString()) }
         }
     }
 
-    // The onClick event of the button set api key
-    private fun onSetApiKey(context: Context, newApiKey: String?) {
+    // The onClick event of set config buttons
+    private fun <T>onSetConfig(context: Context, key: Preferences.Key<T>, newValue: T) {
         CoroutineScope(Dispatchers.Main).launch {
             withContext(Dispatchers.IO) {
                 dataStore.edit { settings ->
-                    settings[API_KEY] = newApiKey ?: ""
+                    settings[key] = newValue
                 }
             }
 
-            Toast.makeText(context, getString(R.string.api_key_successfully_set), Toast.LENGTH_SHORT).show()
+            Toast.makeText(context, getString(R.string.successfully_set), Toast.LENGTH_SHORT).show()
         }
     }
 
diff --git a/android/app/src/main/res/values/strings.xml b/android/app/src/main/res/values/strings.xml
index 491b0c3..ef799bb 100644
--- a/android/app/src/main/res/values/strings.xml
+++ b/android/app/src/main/res/values/strings.xml
@@ -11,7 +11,7 @@
     <string name="microphone">Microphone</string>
     <string name="set">Set</string>
     <string name="loading">Loading...</string>
-    <string name="api_key_successfully_set">API Key successfully set!</string>
+    <string name="successfully_set">Successfully set!</string>
     <string name="endpoint">Endpoint</string>
     <string name="endpoint_hint"><![CDATA[e.g., http://<host>:<port>/asr]]></string>
     <string name="language_code">Language Code</string>

From f54c1995ee5b91c1c147593e0d9d5daa09f45a14 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 19:15:40 +0800
Subject: [PATCH 06/14] feat(): Added compatability for OpenAI styled requests.

Different form body and headers are required respectively.
Ref: https://platform.openai.com/docs/guides/speech-to-text/quickstart
---
 .../example/whispertoinput/MainActivity.kt    |  1 +
 .../whispertoinput/WhisperInputService.kt     |  3 +-
 .../whispertoinput/WhisperTranscriber.kt      | 38 ++++++++++++++++---
 3 files changed, 35 insertions(+), 7 deletions(-)

diff --git a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
index 16d80c1..9b45378 100644
--- a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
@@ -30,6 +30,7 @@ private const val MICROPHONE_PERMISSION_REQUEST_CODE = 200
 val Context.dataStore: DataStore<Preferences> by preferencesDataStore(name = "settings")
 val ENDPOINT = stringPreferencesKey("endpoint")
 val LANGUAGE_CODE = stringPreferencesKey("language-code")
+val API_KEY = stringPreferencesKey("api-key")
 
 class MainActivity : AppCompatActivity() {
     override fun onCreate(savedInstanceState: Bundle?) {
diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt
index 71645af..6d83327 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt
@@ -14,7 +14,7 @@ import android.content.pm.PackageManager
 import android.widget.Toast
 
 private const val RECORDED_AUDIO_FILENAME = "recorded.m4a"
-
+private const val AUDIO_MEDIA_TYPE = "audio/mp4"
 class WhisperInputService : InputMethodService() {
     private var whisperKeyboard: WhisperKeyboard = WhisperKeyboard()
     private var whisperJobManager: WhisperTranscriber = WhisperTranscriber()
@@ -67,6 +67,7 @@ class WhisperInputService : InputMethodService() {
         whisperJobManager.startAsync(
             this,
             recordedAudioFilename,
+            AUDIO_MEDIA_TYPE,
             { transcriptionCallback(it) },
             { transcriptionExceptionCallback(it) }
         )
diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
index 556ee64..2e3be25 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
@@ -2,6 +2,9 @@ package com.example.whispertoinput
 
 import android.content.Context
 import kotlinx.coroutines.*
+import kotlinx.coroutines.flow.first
+import kotlinx.coroutines.flow.map
+import okhttp3.Headers
 import okhttp3.MediaType.Companion.toMediaTypeOrNull
 import okhttp3.MultipartBody
 import okhttp3.OkHttpClient
@@ -16,15 +19,29 @@ class WhisperTranscriber {
     fun startAsync(
         context: Context,
         filename: String,
+        mediaType: String,
         callback: (String?) -> Unit,
         exceptionCallback: (String) -> Unit
     ) {
         suspend fun makeWhisperRequest(): String {
+            // Retrieve configs
+            val endpoint = context.dataStore.data.map { preferences ->
+                preferences[ENDPOINT]
+            }.first() ?: ""
+            val languageCode = context.dataStore.data.map { preferences ->
+                preferences[LANGUAGE_CODE]
+            }.first() ?: "en"
+            val apiKey = context.dataStore.data.map { preferences ->
+                preferences[API_KEY]
+            }.first() ?: ""
+
+            // Make request
             val client = OkHttpClient()
             val request = buildWhisperRequest(
                 filename,
-                "http://192.168.1.110:9000/asr?encode=true&task=transcribe&language=zh&word_timestamps=false&output=txt",
-                "audio/mp4"
+                "$endpoint?encode=true&task=transcribe&language=$languageCode&word_timestamps=false&output=txt",
+                mediaType,
+                apiKey
             )
             val response = client.newCall(request).execute()
             return response.body!!.string()
@@ -69,15 +86,24 @@ class WhisperTranscriber {
         currentTranscriptionJob = job
     }
 
-    private fun buildWhisperRequest(filename: String, url: String, mediaType: String): Request {
+    private fun buildWhisperRequest(filename: String, url: String, mediaType: String, apiKey: String): Request {
         val file: File = File(filename)
         val fileBody: RequestBody = file.asRequestBody(mediaType.toMediaTypeOrNull())
-        val requestBody: RequestBody = MultipartBody.Builder()
-            .setType(MultipartBody.FORM)
-            .addFormDataPart("audio_file", "@audio.m4a", fileBody)
+        val requestBody: RequestBody = MultipartBody.Builder().apply {
+            setType(MultipartBody.FORM)
+            addFormDataPart("audio_file", "@audio.m4a", fileBody)
+            addFormDataPart("file", "@audio.m4a", fileBody)
+            addFormDataPart("model", "whisper-1")
+            addFormDataPart("response_format", "text")
+        }.build()
+
+        val requestHeaders: Headers = Headers.Builder()
+            .add("Authorization", "Bearer $apiKey")
+            .add("Content-Type", "multipart/form-data")
             .build()
 
         return Request.Builder()
+            .headers(requestHeaders)
             .url(url)
             .post(requestBody)
             .build()

From 7d1d48955974fc90e97d38427abc5fd3b7b9277f Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 19:51:29 +0800
Subject: [PATCH 07/14] feat(activity_main.xml): Made the layout scrollable.

---
 .../app/src/main/res/layout/activity_main.xml | 214 +++++++++---------
 1 file changed, 112 insertions(+), 102 deletions(-)

diff --git a/android/app/src/main/res/layout/activity_main.xml b/android/app/src/main/res/layout/activity_main.xml
index 5b1f472..1b881b4 100644
--- a/android/app/src/main/res/layout/activity_main.xml
+++ b/android/app/src/main/res/layout/activity_main.xml
@@ -7,115 +7,125 @@
     android:layout_height="match_parent"
     tools:context=".MainActivity">
 
-    <TextView
-        android:id="@+id/label_title"
-        android:layout_width="wrap_content"
-        android:layout_height="wrap_content"
-        android:layout_marginTop="32dp"
-        android:text="@string/whisper_to_input"
-        android:textSize="24sp"
-        app:layout_constraintEnd_toEndOf="parent"
-        app:layout_constraintStart_toStartOf="parent"
-        app:layout_constraintTop_toTopOf="parent" />
+    <ScrollView
+        android:layout_width="match_parent"
+        android:layout_height="match_parent" >
 
-    <TextView
-        android:id="@+id/label_microphone"
-        android:layout_width="0dp"
-        android:layout_height="0dp"
-        android:gravity="center_vertical"
-        android:text="@string/microphone"
-        android:textStyle="bold"
-        app:layout_constraintBottom_toBottomOf="@+id/btn_mic_permission"
-        app:layout_constraintEnd_toStartOf="@+id/btn_mic_permission"
-        app:layout_constraintStart_toStartOf="@+id/label_endpoint"
-        app:layout_constraintTop_toTopOf="@+id/btn_mic_permission" />
+        <androidx.constraintlayout.widget.ConstraintLayout
+            android:layout_width="match_parent"
+            android:layout_height="wrap_content">
 
-    <Button
-        android:id="@+id/btn_mic_permission"
-        android:layout_width="wrap_content"
-        android:layout_height="wrap_content"
-        android:layout_marginTop="24dp"
-        android:onClick="onRequestMicrophonePermission"
-        android:text="@string/grant_microphone_permission"
-        app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
-        app:layout_constraintStart_toEndOf="@+id/label_microphone"
-        app:layout_constraintTop_toBottomOf="@+id/edittext_language_code" />
+            <TextView
+                android:id="@+id/label_title"
+                android:layout_width="wrap_content"
+                android:layout_height="wrap_content"
+                android:layout_marginTop="32dp"
+                android:text="@string/whisper_to_input"
+                android:textSize="24sp"
+                app:layout_constraintEnd_toEndOf="parent"
+                app:layout_constraintStart_toStartOf="parent"
+                app:layout_constraintTop_toTopOf="parent" />
 
-    <TextView
-        android:id="@+id/label_endpoint"
-        android:layout_width="wrap_content"
-        android:layout_height="0dp"
-        android:layout_marginStart="32dp"
-        android:gravity="center_vertical"
-        android:text="@string/endpoint"
-        android:textStyle="bold"
-        app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
-        app:layout_constraintEnd_toStartOf="@+id/edittext_endpoint"
-        app:layout_constraintStart_toStartOf="parent"
-        app:layout_constraintTop_toTopOf="@+id/edittext_endpoint" />
+            <TextView
+                android:id="@+id/label_microphone"
+                android:layout_width="0dp"
+                android:layout_height="wrap_content"
+                android:gravity="center_vertical"
+                android:text="@string/microphone"
+                android:textStyle="bold"
+                app:layout_constraintBottom_toBottomOf="@+id/btn_mic_permission"
+                app:layout_constraintEnd_toStartOf="@+id/btn_mic_permission"
+                app:layout_constraintStart_toStartOf="@+id/label_endpoint"
+                app:layout_constraintTop_toTopOf="@+id/btn_mic_permission" />
 
-    <EditText
-        android:id="@+id/edittext_endpoint"
-        android:layout_width="0dp"
-        android:layout_height="wrap_content"
-        android:layout_marginStart="24dp"
-        android:layout_marginTop="48dp"
-        android:layout_marginEnd="16dp"
-        android:ems="10"
-        android:gravity="start|top"
-        android:hint="@string/endpoint_hint"
-        android:inputType="textMultiLine"
-        android:minHeight="48dp"
-        app:layout_constraintEnd_toStartOf="@+id/btn_set_endpoint"
-        app:layout_constraintStart_toEndOf="@+id/label_endpoint"
-        app:layout_constraintTop_toBottomOf="@+id/label_title" />
+            <Button
+                android:id="@+id/btn_mic_permission"
+                android:layout_width="wrap_content"
+                android:layout_height="wrap_content"
+                android:layout_marginTop="24dp"
+                android:onClick="onRequestMicrophonePermission"
+                android:text="@string/grant_microphone_permission"
+                app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
+                app:layout_constraintTop_toBottomOf="@+id/edittext_language_code" />
 
-    <Button
-        android:id="@+id/btn_set_endpoint"
-        android:layout_width="wrap_content"
-        android:layout_height="wrap_content"
-        android:layout_marginEnd="32dp"
-        android:text="@string/set"
-        app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
-        app:layout_constraintEnd_toEndOf="parent"
-        app:layout_constraintStart_toEndOf="@+id/edittext_endpoint"
-        app:layout_constraintTop_toTopOf="@+id/edittext_endpoint" />
+            <TextView
+                android:id="@+id/label_endpoint"
+                android:layout_width="wrap_content"
+                android:layout_height="0dp"
+                android:layout_marginStart="32dp"
+                android:gravity="center_vertical"
+                android:text="@string/endpoint"
+                android:textStyle="bold"
+                app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
+                app:layout_constraintEnd_toStartOf="@+id/edittext_endpoint"
+                app:layout_constraintStart_toStartOf="parent"
+                app:layout_constraintTop_toTopOf="@+id/edittext_endpoint" />
 
-    <TextView
-        android:id="@+id/label_language_code"
-        android:layout_width="wrap_content"
-        android:layout_height="0dp"
-        android:gravity="center_vertical"
-        android:text="@string/language_code"
-        android:textStyle="bold"
-        app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
-        app:layout_constraintEnd_toStartOf="@+id/edittext_language_code"
-        app:layout_constraintStart_toStartOf="@+id/label_endpoint"
-        app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
+            <EditText
+                android:id="@+id/edittext_endpoint"
+                android:layout_width="0dp"
+                android:layout_height="wrap_content"
+                android:layout_marginStart="8dp"
+                android:layout_marginTop="32dp"
+                android:layout_marginEnd="16dp"
+                android:ems="10"
+                android:gravity="start|top"
+                android:hint="@string/endpoint_hint"
+                android:inputType="textMultiLine"
+                android:minHeight="48dp"
+                app:layout_constraintEnd_toStartOf="@+id/btn_set_endpoint"
+                app:layout_constraintStart_toEndOf="@+id/label_endpoint"
+                app:layout_constraintTop_toBottomOf="@+id/label_title" />
 
-    <EditText
-        android:id="@+id/edittext_language_code"
-        android:layout_width="0dp"
-        android:layout_height="wrap_content"
-        android:layout_marginTop="24dp"
-        android:layout_marginEnd="16dp"
-        android:ems="10"
-        android:gravity="start|top"
-        android:hint="@string/language_code_hint"
-        android:inputType="textMultiLine"
-        android:minHeight="48dp"
-        app:layout_constraintEnd_toStartOf="@+id/btn_set_language_code"
-        app:layout_constraintStart_toEndOf="@+id/label_language_code"
-        app:layout_constraintTop_toBottomOf="@+id/edittext_endpoint" />
+            <Button
+                android:id="@+id/btn_set_endpoint"
+                android:layout_width="wrap_content"
+                android:layout_height="wrap_content"
+                android:layout_marginEnd="32dp"
+                android:text="@string/set"
+                app:layout_constraintBottom_toBottomOf="@+id/edittext_endpoint"
+                app:layout_constraintEnd_toEndOf="parent"
+                app:layout_constraintStart_toEndOf="@+id/edittext_endpoint"
+                app:layout_constraintTop_toTopOf="@+id/edittext_endpoint" />
+
+            <TextView
+                android:id="@+id/label_language_code"
+                android:layout_width="wrap_content"
+                android:layout_height="0dp"
+                android:gravity="center_vertical"
+                android:text="@string/language_code"
+                android:textStyle="bold"
+                app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
+                app:layout_constraintStart_toStartOf="@+id/label_endpoint"
+                app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
+
+            <EditText
+                android:id="@+id/edittext_language_code"
+                android:layout_width="0dp"
+                android:layout_height="wrap_content"
+                android:layout_marginStart="8dp"
+                android:layout_marginTop="24dp"
+                android:layout_marginEnd="16dp"
+                android:ems="10"
+                android:gravity="start|top"
+                android:hint="@string/language_code_hint"
+                android:inputType="textMultiLine"
+                android:minHeight="48dp"
+                app:layout_constraintEnd_toStartOf="@+id/btn_set_language_code"
+                app:layout_constraintStart_toEndOf="@+id/label_language_code"
+                app:layout_constraintTop_toBottomOf="@+id/edittext_endpoint" />
+
+            <Button
+                android:id="@+id/btn_set_language_code"
+                android:layout_width="wrap_content"
+                android:layout_height="wrap_content"
+                android:text="@string/set"
+                app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
+                app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
+                app:layout_constraintStart_toEndOf="@+id/edittext_language_code"
+                app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
+        </androidx.constraintlayout.widget.ConstraintLayout>
+    </ScrollView>
 
-    <Button
-        android:id="@+id/btn_set_language_code"
-        android:layout_width="wrap_content"
-        android:layout_height="wrap_content"
-        android:text="@string/set"
-        app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
-        app:layout_constraintEnd_toEndOf="@id/btn_set_endpoint"
-        app:layout_constraintStart_toEndOf="@+id/edittext_language_code"
-        app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
 
 </androidx.constraintlayout.widget.ConstraintLayout>
\ No newline at end of file

From 50ea307128d9a7b6ae026f5cfd8ba4efc43940e3 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 20:29:08 +0800
Subject: [PATCH 08/14] feat(activity_main.xml): Added configuration for
 request style and api key.

Since OpenAI API and Whisper Webservice have different request styles.
---
 .../app/src/main/res/layout/activity_main.xml | 81 ++++++++++++++++++-
 1 file changed, 80 insertions(+), 1 deletion(-)

diff --git a/android/app/src/main/res/layout/activity_main.xml b/android/app/src/main/res/layout/activity_main.xml
index 1b881b4..65d141e 100644
--- a/android/app/src/main/res/layout/activity_main.xml
+++ b/android/app/src/main/res/layout/activity_main.xml
@@ -33,6 +33,7 @@
                 android:gravity="center_vertical"
                 android:text="@string/microphone"
                 android:textStyle="bold"
+                android:visibility="gone"
                 app:layout_constraintBottom_toBottomOf="@+id/btn_mic_permission"
                 app:layout_constraintEnd_toStartOf="@+id/btn_mic_permission"
                 app:layout_constraintStart_toStartOf="@+id/label_endpoint"
@@ -45,6 +46,7 @@
                 android:layout_marginTop="24dp"
                 android:onClick="onRequestMicrophonePermission"
                 android:text="@string/grant_microphone_permission"
+                android:visibility="gone"
                 app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
                 app:layout_constraintTop_toBottomOf="@+id/edittext_language_code" />
 
@@ -90,12 +92,14 @@
 
             <TextView
                 android:id="@+id/label_language_code"
-                android:layout_width="wrap_content"
+                android:layout_width="0dp"
                 android:layout_height="0dp"
                 android:gravity="center_vertical"
                 android:text="@string/language_code"
                 android:textStyle="bold"
                 app:layout_constraintBottom_toBottomOf="@+id/edittext_language_code"
+                app:layout_constraintEnd_toStartOf="@+id/edittext_language_code"
+                app:layout_constraintHorizontal_bias="1.0"
                 app:layout_constraintStart_toStartOf="@+id/label_endpoint"
                 app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
 
@@ -124,6 +128,81 @@
                 app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
                 app:layout_constraintStart_toEndOf="@+id/edittext_language_code"
                 app:layout_constraintTop_toTopOf="@+id/edittext_language_code" />
+
+
+            <TextView
+                android:id="@+id/label_request_style"
+                android:layout_width="0dp"
+                android:layout_height="0dp"
+                android:gravity="center_vertical"
+                android:text="Request Style"
+                android:textStyle="bold"
+                app:layout_constraintBottom_toBottomOf="@+id/radio_request_style"
+                app:layout_constraintEnd_toStartOf="@+id/radio_request_style"
+                app:layout_constraintStart_toStartOf="@+id/label_endpoint"
+                app:layout_constraintTop_toTopOf="@+id/radio_request_style" />
+
+            <RadioGroup
+                android:id="@+id/radio_request_style"
+                android:layout_width="wrap_content"
+                android:layout_height="wrap_content"
+                android:layout_marginTop="24dp"
+                android:orientation="horizontal"
+                app:layout_constraintEnd_toEndOf="@+id/btn_set_language_code"
+                app:layout_constraintTop_toBottomOf="@+id/edittext_language_code">
+
+                <RadioButton
+                    android:id="@+id/radio_btn_openai_api"
+                    android:layout_width="match_parent"
+                    android:layout_height="wrap_content"
+                    android:text="OpenAI API" />
+
+                <RadioButton
+                    android:id="@+id/radio_btn_whisper_webservice"
+                    android:layout_width="match_parent"
+                    android:layout_height="wrap_content"
+                    android:text="Whisper Webservice" />
+            </RadioGroup>
+
+            <TextView
+                android:id="@+id/label_api_key"
+                android:layout_width="wrap_content"
+                android:layout_height="0dp"
+                android:gravity="center_vertical"
+                android:text="API Key"
+                android:textStyle="bold"
+                app:layout_constraintBottom_toBottomOf="@+id/edittext_api_key"
+                app:layout_constraintEnd_toStartOf="@+id/edittext_api_key"
+                app:layout_constraintStart_toStartOf="@+id/label_endpoint"
+                app:layout_constraintTop_toTopOf="@+id/edittext_api_key" />
+
+            <EditText
+                android:id="@+id/edittext_api_key"
+                android:layout_width="0dp"
+                android:layout_height="wrap_content"
+                android:layout_marginStart="16dp"
+                android:layout_marginTop="24dp"
+                android:layout_marginEnd="16dp"
+                android:ems="10"
+                android:gravity="start|top"
+                android:hint="Enter OpenAI API Key..."
+                android:inputType="textMultiLine"
+                android:minHeight="48dp"
+                app:layout_constraintEnd_toStartOf="@+id/btn_set_language_code"
+                app:layout_constraintStart_toEndOf="@+id/label_api_key"
+                app:layout_constraintTop_toBottomOf="@id/radio_request_style" />
+
+            <Button
+                android:id="@+id/btn_set_api_key"
+                android:layout_width="wrap_content"
+                android:layout_height="wrap_content"
+                android:text="@string/set"
+                app:layout_constraintBottom_toBottomOf="@+id/edittext_api_key"
+                app:layout_constraintEnd_toEndOf="@+id/btn_set_endpoint"
+                app:layout_constraintHorizontal_bias="1.0"
+                app:layout_constraintStart_toEndOf="@+id/edittext_api_key"
+                app:layout_constraintTop_toTopOf="@+id/edittext_api_key" />
+
         </androidx.constraintlayout.widget.ConstraintLayout>
     </ScrollView>
 

From 13dd8f70fe1515ead018b1b69c14cbc30914fce6 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 20:31:17 +0800
Subject: [PATCH 09/14] feat(activity_main.xml): Extracted string resources.

---
 android/app/src/main/res/layout/activity_main.xml | 10 +++++-----
 android/app/src/main/res/values/strings.xml       |  5 +++++
 2 files changed, 10 insertions(+), 5 deletions(-)

diff --git a/android/app/src/main/res/layout/activity_main.xml b/android/app/src/main/res/layout/activity_main.xml
index 65d141e..5b33753 100644
--- a/android/app/src/main/res/layout/activity_main.xml
+++ b/android/app/src/main/res/layout/activity_main.xml
@@ -135,7 +135,7 @@
                 android:layout_width="0dp"
                 android:layout_height="0dp"
                 android:gravity="center_vertical"
-                android:text="Request Style"
+                android:text="@string/request_style"
                 android:textStyle="bold"
                 app:layout_constraintBottom_toBottomOf="@+id/radio_request_style"
                 app:layout_constraintEnd_toStartOf="@+id/radio_request_style"
@@ -155,13 +155,13 @@
                     android:id="@+id/radio_btn_openai_api"
                     android:layout_width="match_parent"
                     android:layout_height="wrap_content"
-                    android:text="OpenAI API" />
+                    android:text="@string/option_openai_api" />
 
                 <RadioButton
                     android:id="@+id/radio_btn_whisper_webservice"
                     android:layout_width="match_parent"
                     android:layout_height="wrap_content"
-                    android:text="Whisper Webservice" />
+                    android:text="@string/option_whisper_webservice" />
             </RadioGroup>
 
             <TextView
@@ -169,7 +169,7 @@
                 android:layout_width="wrap_content"
                 android:layout_height="0dp"
                 android:gravity="center_vertical"
-                android:text="API Key"
+                android:text="@string/api_key"
                 android:textStyle="bold"
                 app:layout_constraintBottom_toBottomOf="@+id/edittext_api_key"
                 app:layout_constraintEnd_toStartOf="@+id/edittext_api_key"
@@ -185,7 +185,7 @@
                 android:layout_marginEnd="16dp"
                 android:ems="10"
                 android:gravity="start|top"
-                android:hint="Enter OpenAI API Key..."
+                android:hint="@string/api_key_hint"
                 android:inputType="textMultiLine"
                 android:minHeight="48dp"
                 app:layout_constraintEnd_toStartOf="@+id/btn_set_language_code"
diff --git a/android/app/src/main/res/values/strings.xml b/android/app/src/main/res/values/strings.xml
index ef799bb..6113a7f 100644
--- a/android/app/src/main/res/values/strings.xml
+++ b/android/app/src/main/res/values/strings.xml
@@ -16,4 +16,9 @@
     <string name="endpoint_hint"><![CDATA[e.g., http://<host>:<port>/asr]]></string>
     <string name="language_code">Language Code</string>
     <string name="language_code_hint">Enter Language Code (e.g., en, zh)</string>
+    <string name="api_key_hint">Enter OpenAI API Key...</string>
+    <string name="api_key">API Key</string>
+    <string name="option_whisper_webservice">Whisper Webservice</string>
+    <string name="option_openai_api">OpenAI API</string>
+    <string name="request_style">Request Style</string>
 </resources>
\ No newline at end of file

From a94dd0cdf42235d797c0a3ce6eb78a50c1603e71 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 20:54:03 +0800
Subject: [PATCH 10/14] feat(.MainActivity): Made widgets capable of option
 configuration.

---
 .../example/whispertoinput/MainActivity.kt    | 55 +++++++++++++++++--
 1 file changed, 51 insertions(+), 4 deletions(-)

diff --git a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
index 9b45378..8c8ebbd 100644
--- a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
@@ -12,10 +12,12 @@ import android.provider.*
 import android.view.View
 import android.widget.Button
 import android.widget.EditText
+import android.widget.RadioGroup
 import android.widget.Toast
 import androidx.core.content.ContextCompat
 import androidx.datastore.core.DataStore
 import androidx.datastore.preferences.core.Preferences
+import androidx.datastore.preferences.core.booleanPreferencesKey
 import androidx.datastore.preferences.core.edit
 import androidx.datastore.preferences.core.stringPreferencesKey
 import androidx.datastore.preferences.preferencesDataStore
@@ -30,6 +32,7 @@ private const val MICROPHONE_PERMISSION_REQUEST_CODE = 200
 val Context.dataStore: DataStore<Preferences> by preferencesDataStore(name = "settings")
 val ENDPOINT = stringPreferencesKey("endpoint")
 val LANGUAGE_CODE = stringPreferencesKey("language-code")
+val REQUEST_STYLE = booleanPreferencesKey("is-openai-api-request-style")
 val API_KEY = stringPreferencesKey("api-key")
 
 class MainActivity : AppCompatActivity() {
@@ -57,25 +60,31 @@ class MainActivity : AppCompatActivity() {
 
     // Sets up config widgets.
     private fun setupConfigWidgets(context: Context) {
-        // TODO: Refactor. Perhaps use a class to process configuration UI and behaviors.
+        // TODO: Refactor. Perhaps use a class to process configuration UI widgets and behaviors.
         // Launches a non-blocking job in the main thread.
         // Perform data retrieval in the IO thread.
         val endpointInput: EditText = findViewById(R.id.edittext_endpoint)
         val btnSetEndpoint: Button = findViewById(R.id.btn_set_endpoint)
         val languageCodeInput: EditText = findViewById(R.id.edittext_language_code)
         val btnSetLanguageCode: Button = findViewById(R.id.btn_set_language_code)
+        val apiKeyInput: EditText = findViewById(R.id.edittext_api_key)
+        val btnSetApiKey: Button = findViewById(R.id.btn_set_api_key)
+        val requestStyleOption : RadioGroup = findViewById(R.id.radio_request_style)
 
         CoroutineScope(Dispatchers.Main).launch {
 
-            // Disable input & button, and show loading hint
+            // Disable inputs, buttons & controls, and show loading hint
             endpointInput.isEnabled = false
             endpointInput.hint = getString(R.string.loading)
             btnSetEndpoint.isEnabled = false
             languageCodeInput.isEnabled = false
             languageCodeInput.hint = getString(R.string.loading)
             btnSetLanguageCode.isEnabled = false
+            apiKeyInput.hint = getString(R.string.loading)
+            btnSetApiKey.isEnabled = false
+            requestStyleOption.isEnabled = false
 
-            // Retrieve stored endpoint & language code
+            // Retrieve stored endpoint, language code, api key & request style
             val retrievedEndpoint = withContext(Dispatchers.IO) {
                 return@withContext dataStore.data.map { preferences ->
                     preferences[ENDPOINT]
@@ -88,6 +97,18 @@ class MainActivity : AppCompatActivity() {
                 }.first()
             }
 
+            val retrievedRequestStyle = withContext(Dispatchers.IO) {
+                return@withContext dataStore.data.map { preferences ->
+                    preferences[REQUEST_STYLE]
+                }.first()
+            }
+
+            val retrievedApiKey = withContext(Dispatchers.IO) {
+                return@withContext dataStore.data.map { preferences ->
+                    preferences[API_KEY]
+                }.first()
+            }
+
             // Set retrieved endpoint in input, or set hint
             if (retrievedEndpoint.isNullOrEmpty()) {
                 endpointInput.hint = getString(R.string.endpoint_hint)
@@ -96,22 +117,48 @@ class MainActivity : AppCompatActivity() {
             }
 
             // Set retrieved endpoint input, or set hint
-            // TODO: This could a dropdown list?
+            // TODO: This could a dropdown list? Or radio group?
             if (retrievedLanguageCode.isNullOrEmpty()) {
                 languageCodeInput.hint = getString(R.string.language_code_hint)
             } else {
                 languageCodeInput.setText(retrievedLanguageCode)
             }
 
+            // Set retrieved request style, or assign a default
+            if (retrievedRequestStyle == null) {
+                dataStore.edit { settings ->
+                    settings[REQUEST_STYLE] = true
+                }
+                requestStyleOption.check(R.id.radio_btn_openai_api)
+            } else if (retrievedRequestStyle) {
+                requestStyleOption.check(R.id.radio_btn_openai_api)
+            } else {
+                requestStyleOption.check(R.id.radio_btn_whisper_webservice)
+            }
+
+            // Set retrieved api key
+            if (retrievedApiKey.isNullOrEmpty()) {
+                apiKeyInput.hint = getString(R.string.api_key_hint)
+            } else {
+                apiKeyInput.setText(retrievedApiKey)
+            }
+
             // Re-enable input & button
             endpointInput.isEnabled = true
             btnSetEndpoint.isEnabled = true
             languageCodeInput.isEnabled = true
             btnSetLanguageCode.isEnabled = true
+            apiKeyInput.isEnabled = true
+            btnSetApiKey.isEnabled = true
+            requestStyleOption.isEnabled = true
 
             // After retrieval is done, assign onClick event to the set buttons
             btnSetEndpoint.setOnClickListener { onSetConfig(context, ENDPOINT, endpointInput.text.toString()) }
             btnSetLanguageCode.setOnClickListener { onSetConfig(context, LANGUAGE_CODE, languageCodeInput.text.toString()) }
+            requestStyleOption.setOnCheckedChangeListener { _, checkedId ->
+                onSetConfig(context, REQUEST_STYLE, (checkedId == R.id.radio_btn_openai_api))
+            }
+            btnSetApiKey.setOnClickListener { onSetConfig(context, API_KEY, apiKeyInput.text.toString()) }
         }
     }
 

From 05e900898cae08824b535077188e98e49d365eab Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 21:17:57 +0800
Subject: [PATCH 11/14] feat(.WhisperTranscriber): Respected different request
 styles.

Data class ref: https://www.baeldung.com/kotlin/returning-multiple-values
---
 .../whispertoinput/WhisperTranscriber.kt      | 55 +++++++++++++------
 1 file changed, 37 insertions(+), 18 deletions(-)

diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
index 2e3be25..522bd4a 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
@@ -1,6 +1,7 @@
 package com.example.whispertoinput
 
 import android.content.Context
+import androidx.datastore.preferences.core.Preferences
 import kotlinx.coroutines.*
 import kotlinx.coroutines.flow.first
 import kotlinx.coroutines.flow.map
@@ -14,6 +15,13 @@ import okhttp3.RequestBody.Companion.asRequestBody
 import java.io.File
 
 class WhisperTranscriber {
+    private data class Config(
+        val endpoint: String,
+        val languageCode: String,
+        val isRequestStyleOpenaiApi: Boolean,
+        val apiKey: String
+    )
+
     private var currentTranscriptionJob: Job? = null
 
     fun startAsync(
@@ -25,15 +33,14 @@ class WhisperTranscriber {
     ) {
         suspend fun makeWhisperRequest(): String {
             // Retrieve configs
-            val endpoint = context.dataStore.data.map { preferences ->
-                preferences[ENDPOINT]
-            }.first() ?: ""
-            val languageCode = context.dataStore.data.map { preferences ->
-                preferences[LANGUAGE_CODE]
-            }.first() ?: "en"
-            val apiKey = context.dataStore.data.map { preferences ->
-                preferences[API_KEY]
-            }.first() ?: ""
+            val (endpoint, languageCode, isRequestStyleOpenaiApi, apiKey) = context.dataStore.data.map { preferences: Preferences ->
+                Config(
+                    preferences[ENDPOINT] ?: "",
+                    preferences[LANGUAGE_CODE] ?: "en",
+                    preferences[REQUEST_STYLE] ?: true,
+                    preferences[API_KEY] ?: ""
+                )
+            }.first()
 
             // Make request
             val client = OkHttpClient()
@@ -41,7 +48,8 @@ class WhisperTranscriber {
                 filename,
                 "$endpoint?encode=true&task=transcribe&language=$languageCode&word_timestamps=false&output=txt",
                 mediaType,
-                apiKey
+                apiKey,
+                isRequestStyleOpenaiApi
             )
             val response = client.newCall(request).execute()
             return response.body!!.string()
@@ -86,21 +94,32 @@ class WhisperTranscriber {
         currentTranscriptionJob = job
     }
 
-    private fun buildWhisperRequest(filename: String, url: String, mediaType: String, apiKey: String): Request {
+    private fun buildWhisperRequest(
+        filename: String,
+        url: String,
+        mediaType: String,
+        apiKey: String,
+        isRequestStyleOpenaiApi: Boolean
+    ): Request {
         val file: File = File(filename)
         val fileBody: RequestBody = file.asRequestBody(mediaType.toMediaTypeOrNull())
         val requestBody: RequestBody = MultipartBody.Builder().apply {
             setType(MultipartBody.FORM)
             addFormDataPart("audio_file", "@audio.m4a", fileBody)
-            addFormDataPart("file", "@audio.m4a", fileBody)
-            addFormDataPart("model", "whisper-1")
-            addFormDataPart("response_format", "text")
+
+            if (isRequestStyleOpenaiApi) {
+                addFormDataPart("file", "@audio.m4a", fileBody)
+                addFormDataPart("model", "whisper-1")
+                addFormDataPart("response_format", "text")
+            }
         }.build()
 
-        val requestHeaders: Headers = Headers.Builder()
-            .add("Authorization", "Bearer $apiKey")
-            .add("Content-Type", "multipart/form-data")
-            .build()
+        val requestHeaders: Headers = Headers.Builder().apply {
+            if (isRequestStyleOpenaiApi) {
+                add("Authorization", "Bearer $apiKey")
+            }
+            add("Content-Type", "multipart/form-data")
+        }.build()
 
         return Request.Builder()
             .headers(requestHeaders)

From 28255b829254719cb2c473102d74aaa965619a9b Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 21:29:49 +0800
Subject: [PATCH 12/14] feat(.WhisperTranscriber): Error handling.

---
 .../java/com/example/whispertoinput/WhisperTranscriber.kt    | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
index 522bd4a..0258eb5 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
@@ -52,6 +52,11 @@ class WhisperTranscriber {
                 isRequestStyleOpenaiApi
             )
             val response = client.newCall(request).execute()
+
+            // If request is not successful, or response code is weird
+            if (!response.isSuccessful || response.code / 100 != 2) {
+                throw Exception(response.body!!.string().replace('\n', ' '))
+            }
             return response.body!!.string()
         }
 

From 93c0746d78986094bf6153c8fde36421548db547 Mon Sep 17 00:00:00 2001
From: tigerpaws <boshow2270@gmail.com>
Date: Tue, 21 Nov 2023 22:21:09 +0800
Subject: [PATCH 13/14] fix(.WhisperInputService): commmitText argument.

Original argument is wrong. Turns out 1 is desired to place the cursor at the end of the commited text.
Ref: https://developer.android.com/reference/android/view/inputmethod/InputConnection#commitText(java.lang.CharSequence,%20int)
---
 .../main/java/com/example/whispertoinput/WhisperInputService.kt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt
index 6d83327..78ae599 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperInputService.kt
@@ -23,7 +23,7 @@ class WhisperInputService : InputMethodService() {
 
     private fun transcriptionCallback(text: String?) {
         if (!text.isNullOrEmpty()) {
-            currentInputConnection?.commitText(text, text.length)
+            currentInputConnection?.commitText(text, 1)
         }
 
         whisperKeyboard.reset()

From 3e77120755abd9c7f0bab56bd495a1383962d65e Mon Sep 17 00:00:00 2001
From: Johnson Sun <j3.soon777@gmail.com>
Date: Sun, 26 Nov 2023 20:02:43 +0800
Subject: [PATCH 14/14] Add comment and fix formatting

---
 .../src/main/java/com/example/whispertoinput/MainActivity.kt  | 2 +-
 .../java/com/example/whispertoinput/WhisperTranscriber.kt     | 4 ++++
 2 files changed, 5 insertions(+), 1 deletion(-)

diff --git a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
index 8c8ebbd..32f24da 100644
--- a/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/MainActivity.kt
@@ -163,7 +163,7 @@ class MainActivity : AppCompatActivity() {
     }
 
     // The onClick event of set config buttons
-    private fun <T>onSetConfig(context: Context, key: Preferences.Key<T>, newValue: T) {
+    private fun <T> onSetConfig(context: Context, key: Preferences.Key<T>, newValue: T) {
         CoroutineScope(Dispatchers.Main).launch {
             withContext(Dispatchers.IO) {
                 dataStore.edit { settings ->
diff --git a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
index 0258eb5..ca1e667 100644
--- a/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
+++ b/android/app/src/main/java/com/example/whispertoinput/WhisperTranscriber.kt
@@ -106,6 +106,10 @@ class WhisperTranscriber {
         apiKey: String,
         isRequestStyleOpenaiApi: Boolean
     ): Request {
+        // Please refer to the following for the endpoint/payload definitions:
+        // - https://ahmetoner.com/whisper-asr-webservice/run/#usage
+        // - https://platform.openai.com/docs/api-reference/audio/createTranscription
+        // - https://platform.openai.com/docs/api-reference/making-requests
         val file: File = File(filename)
         val fileBody: RequestBody = file.asRequestBody(mediaType.toMediaTypeOrNull())
         val requestBody: RequestBody = MultipartBody.Builder().apply {