黑科技研究中心!
方遠雖然火起來了,但是他還沒有“飄”起來。
以他現在的水平來說,在本科生中可以說是出類拔萃的了!
特彆是他有著其他本科生沒有的實踐經曆。
但是相比那些真正的牛人來說,他的實力還是不夠看的。
但是年級才是他最大的資本,在今後的幾年時間裡都會是他飛速進步的時期。
這個時期可能就是玄幻小說裡麵說的厚積薄發的時期。
前麵十幾年時間積累的底蘊,將會讓他在這段時間內得到最大的進步。
和彆人不一樣的是,方遠在釋放潛力的同時,在係統的幫助下加強自己的潛力。
通俗點說,方遠飛速進步的持續時間要比其他人更長一些。
也就是說方遠能在這條路上走的更遠,變得更強。
翻譯軟件其他方麵都很好解決,方遠畢竟有編寫qoqo的經驗。
但是有一點並不是很好解決的,那就是語言數據庫和詞庫的建立。
為什麼要建立這兩個東西呢?
那就要從現在市麵上翻譯軟件的弊端說起了。
現有的翻譯軟件隻能對我們輸入的文字或語音進行直譯,也就是說它們不會根據語境進行翻譯。
特彆是語音方麵,現有的技術對於一些方言的識彆率著實讓人頭疼。
但是方遠要做的這款軟件可以完美的解決這個問題。
關鍵就是上麵說的兩個數據庫的建立。
不僅僅要建立這兩個數據庫,還需要對二者進行關聯操作。
除了這兩個數據庫之外,還有一個匹配庫需要方遠來完成。
這裡麵的關係十分複雜。
這款智能翻譯軟件,首先通過匹配庫,對你當前的使用場景(默認為最常使用的場景)進行識彆。
然後通過語言數據庫中的資料對你輸入的文字或者語音進行拆分。
用拆分出來的各個小單元在在詞庫中進行匹配。
並且按照翻譯後語言的語法規則進行重新排序。
並且在語音輸入方麵進行了一定的優化處理,可以通過語言庫中的數據,對方言進行良好的識彆。
說來說去,最重要的就是語言庫的建立。
這方麵係統也為方遠想好了辦法,就是通過爬蟲的辦法,通過對短視頻網站、直播網站、自媒體網站等進行數據獲取。
當然這個過程並不是短時間內可以完成的。
而且對計算機配置的要求非常高,方遠現在用的x星人電腦根本就支持不了這個軟件的需求。
好在上次去“九州”公司的時候,他聽到劉誌軍說道公司目前還有幾台服務器暫時是空餘的!
這也省了方遠很大的功夫。
拿起電話,向劉誌軍說明情況後,這幾台服務器的使用權就暫時交給了方遠。
實際上,對於漢語的翻譯是所有翻譯軟件頭疼的事情。
經過五千年曆史的沉澱,漢語的語意是所有語言中最複雜的情況。
特彆是現在非常火的東北話,裡麵有很多詞的對應詞庫是非常難以建立的。
這裡就不得不感慨係統的厲害之處了!