subanana datax

Subanana語音變書面語 datax.io推動AI普及

人工智能

廣告

近期OpenAI的ChatGPT大熱,令人發覺原來聊天機械人可以這樣聰明,亦驚嘆人工智能(AI)技術如此進步,其實AI應用已滲透至日常生活不同層面,令各種工作或流程變得更加方便。本港初創公司datax.io,善用AI研發出語音辨識系統Subanana,將語音變成文字,能夠理解香港兩文三語夾雜的情況,並將之翻譯成為書面語。該公司成立初衷是研發切合本港市場需要的AI應用,尤其是企業層面的應用,推動AI普及化。

相信讀者每天都在手機上收看不少短片,這些短片附有字幕,對製作人員來說,為短片配上字幕是非常費時失事的工作。

本港初創公司datax.io研發了語音辨識系統Subanana,將語音變成文字,無懼港人兩文三語、中英夾雜,近期更能直接翻譯成為書面語,同時標示對話的時間。

製作人員只需將短片上載至Subanana的平台,系統自動翻譯出以書面語寫成的字幕,將之下載後,稍作校正,然後便能夠在短片的適當位置加入相關字幕,大大節省製作時間。

datax.io客戶總監及共同創辦人馮兆軒(Aric)說:「之前系統只能翻譯成口語,但已有不少YouTuber或KOL使用Subanana的服務,我們針對他們的痛點,進一步提升功能,直接翻譯成書面語,為他們節省更多工夫。」

subanana datax
(圖片來源:新傳媒資料室)

不同應用場景

Subanana當然也適合電視台使用,為不同的電視節目配上字幕,也有助前期製作,先將不同短片的內容變成文字存檔,製作人員可以翻查文字紀錄,毋須動輒翻看所有短片,找尋合適的鏡頭。

Subanana在2020年推出語音變文字的服務,並於去年進行大規模的升級,在口語以外,提供書面語的選擇,讓更多機構可以使用相關服務。

若果只能翻譯成口語,未必能夠適合商業機構使用,因為他們需要進行各種記錄,然後進行後續的分析,書面語的話可以切合他們的用途。

上述提到的Subanana,主要是針對個人或者較小型的製作公司,可以說是商業對顧客(B2C)的模式,其實公司一直拓展商業對商業(B2B)市場,並且已有不同的應用場景。

subanana datax
(圖片來源:受訪者提供)

datax.io的主要客戶是金融機構,他們主要用來監察員工與顧客之間的溝通,因為當後者購買投資產品,員工需要解釋清楚,尤其是讀出相關的條款。

傳統來說,金融機構主要是翻聽錄音,確定員工因應守則解釋條款,惟需要耗費大量人力物力。若使用語音變文字功能的話,透過其他人工智能分析,便能夠短時間內,了解不同員工的工作情況。

此外,不少機構將這種服務應用於顧客服務部,將顧客與員工之間的對話變成文字,可以將顧客的查詢或投訴分類,從而作出迅速的跟進。

datax.io正與物業管理公司洽談合作,協助前線員工完成工作,例如保安員巡樓期間,發現某幢大廈、某個樓層的某條樓梯扶手出現破損,可以直接透過語音輸入,即時變成文字,並且將相關資訊記錄在案。

「保安員不再需要在指定的筆記簿中記錄,避免因工作太多而忘記,也可以將相同的情況歸類,一次過要求維修人員處理。」datax.io共同創辦人黃偉俊(Kevin)說。

腳踏實地發展

B2B的模式主要是因應客戶的需要而設計,當每個行業累積到相當數目的客戶,公司再研究能否因應特定行業推出軟體即服務(SaaS)的訂閱模式。

語音變文字這種技術並不是新鮮事,蘋果公司(Apple)手機附有相關功能,微信也有語音輸入功能,但是這些技術並不開放,人們無法在其他地方使用。

subanana datax
(圖片來源:受訪者提供)

此外,雖然這種技術在內地或美國早已相當流行,但是這些市場只會專注於當地的語言,而香港市場規模較小,科技巨擘根本不會花費資源研究廣東話。

Aric說:「香港比較獨特,口語與書面語並不一致,因此必須教導AI學習,當系統翻譯的時候,會自動刪除沒有意義的助語詞。」

現時人們隨時隨地拍攝短片,收音技術未必及傳統的器材,所以會錄下雜音;Subanana則能夠分辨,跳過翻譯這些雜音。

datax.io由數名香港大學的畢業生創辦,他們主要修讀工商管理及資訊系統,當年AI剛剛興起,激發他們的研究興趣,因而於2017年成立公司,專注於研發切合本港市場需要的AI應用。

2018年,datax.io獲得數碼港創意微型基金(CCMF),其後於2019年加入香港科技園的培育計劃;並於2022年畢業。

datax.io獲得不同投資者加入,包括阿里巴巴創業者基金旗下的HKAI LAB及本地天使投資者,累計獲得超過200萬元。

Kevin說:「我們選擇腳踏實地的發展模式,推出服務賺取收入,然後以利潤再發展,因為吸納投資者的話,始終需要犧牲部分自主權,因此現階段並無積極找尋投資者。」

subanana datax
(圖片來源:受訪者提供)

字幕嵌入短片

datax.io的服務主要分為三大類,除上述提到的語音變文字外,還包括電腦視覺(computer vision)及OCR(optical character recognition)。

以電腦視覺為例,datax.io接觸到食物環境衞生署的項目,以熱能鏡頭監察不同地區的鼠患情況,至今仍然繼續。

至於OCR,當人們將鏡頭對準手寫筆記拍攝時,便能夠變成文字,方便進行後續的處理。

雖然近年流行數碼轉型,但是顧客向企業或機構申請使用服務或購買產品,均需要人手填寫表格。

Aric說:「使用OCR的話,可以在極短的時間內,將手寫表格上的資料數碼化,並且輸入系統,只需小量人手協助校對。」

市場方面,datax.io現時主要集中發展本地市場,但也吸引到台灣方面的注意,現時已有當地的YouTuber或KOL使用他們的服務。

Kevin說:「台灣當地也有不少類似的工具,據悉功能不夠完美,當他們知道香港也有,而且可以用來翻譯普通話,因而主動訂閱我們的服務。」

台灣的文化與本港相近,例如使用YouTube及Google,所以發展當地市場較為簡易。

datax.io計劃於今年第二季,首先發展台灣市場;另亦會探討英語及西班牙語地區的市場。

雖然Subanana直接將口語轉化為書面語,經已為短片製作人員提供極大的方便,但是團隊打算加入更方便的功能,就是將字幕嵌入短片當中,製作人員毋須手動輸入,可以即時進行剪片工序。

subanana datax
(圖片來源:iStock)

研究加入ChatGPT

近期ChatGPT大熱,其實很多功能早已出現,只是分散各處, OpenAI聊天機械人將之集中在一起,才令人們感覺份外聰明。

ChatGPT是外國科技公司研發的AI產物,屬於很底層的技術,需要再由其他公司以之設計不同的應用,雖然大家覺得它很聰明,但是在商業層面,還要更多的支援。

Aric說:「datax.io亦可以加以利用ChatGPT這種技術,將之設計成適合不同場景的應用場面,將AI推展至人類生活各個層面。」

subanana datax
(圖片來源:新傳媒資料室)

圖片來源:受訪者提供, 新傳媒資料室, iStock