两性色午夜视频免费无码,97午夜理论片影院,无码超级大爆乳在线播放国产,亚洲中文字幕无码乱线久久视

崔正熹  >>  正文
大數據讓跨界更容易
崔正熹
2015年04月08日

大數據圖

上個世紀中葉,計算機還是一個要占據整個房間的龐然大物。在冷戰期間,美國獲取了大量前蘇聯的各方面資料,但苦于翻譯人才不足,只能求助于計算機技術來解決翻譯壓力。1954年IBM公司將250個單詞和語法規則搭配,將60個俄語斷句翻譯成了英語。當時有樂觀派專家對媒體稱“三年后的機器翻譯一定會非常成熟”。

但這種思路很快就被證明是種誤導。因為語言的變化是極其靈活的,一個單詞在不同的語境和情緒下有著截然不同的含義。就像是中文的“哪里”,可以是詢問位置,也可以是一句客套話。而IBM的單詞配語法有著很大的局限性,語料庫始終在追求精確的語法,而人們的表達卻越來越隨意。到20世紀90年代,IBM投入了大量的資金挑戰機器翻譯,卻收效甚微,最終項目無奈終止。

2006年谷歌公司開始涉及機器翻譯。谷歌的語料庫跳出了兩種語言互相對等匹配的傳統文本翻譯思路,不再僅依靠兩種語言之間嚴謹的語法詞法聯系。開始基于全球互聯網,利用一個更大更龐雜的數據庫來進行翻譯。

如果只追求單詞和語法的準確,那谷歌語料庫只能算是一堆殘渣廢料。因為谷歌語料庫的內容既有來自國際組織的標準文件,也有來自網絡論壇的“閑言碎語”和大量其他未經處理的互聯網訊息,它掌握了不同語言質量參差不齊的文檔大約有幾十億頁,其中包容了大量的拼寫錯誤。這海量的“原版”語言構成了跨語言表達的“訓練集”,可以正確地推算出詞匯搭配在一起的可能性。谷歌翻譯出來的文字從語言美學角度來看確實沒有美感,但語義溝通還是不成問題的。學會一門語言到通讀文獻的水平需要數年的時間,而在這種機器翻譯的輔助下只需要一瞬間,細想起來運用大數據手段解決溝通壁壘的效率還是立竿見影的。

大數據的成功運用打破了不同語言之間的交流壁壘,提高了兩種語言的溝通效率。在現實的經濟活動中,去理解一個陌生領域的難度不亞于理解一門全新的語言。這樣的問題在銀行風控部門的工作中表現最為突出。各個行業發展迅速,銀行面對的申請貸款企業來自各行各業,每個行業的特點迥異。尤其現在跨行業經營的現象與日俱增,這大大提升了對銀行客戶經理本身的素質要求。當銀行面對一個全新的行業時,跨行業的理解難度就像是面對一門新語言。其次出于成本的考慮,銀行負責貸后監管的人手畢竟有限,即便每個責任人再努力也不可能有充足的時間對手上的若干家貸款企業逐一跟蹤。所以在短時間內有效了解該行業的管理特點,風險易發節點、頻率對銀行的貸款風控至關重要。簡而言之,銀行風控部門亟待解決的問題就是如何降低跨界溝通難度、提高跨界溝通效率。銀行和企業的“跨界溝通”也需要一種有效的“翻譯”手段。

大數據手段沖破語言溝通障礙案例對經濟領域的跨界溝通有著重要的指導意義。傳統的思路中,資方會通過財務報表來衡量一個企業的優劣,但事實證明這種辦法是“小數據”思路,在數據采集手段更為便利的今天,似乎財報的短板在日益凸顯,畢竟財報的三張表是可以用PS手段來美化的,并不能如實反映企業情況。

谷歌語料庫包含了互聯網上的各種語言“細節”,在翻譯的過程中會甄選最貼近真實情況的平行文本,所有能最大限度反映語言的本意。一家企業的財報數據量一般是幾十個KB,而如果統計幾年的明細數據可以到十幾個GB,這寫明細數據包括企業訂單、庫存、下線、結算、付款這些核心環節的所有數據。通過相應的大數據算法模型來進行清洗和分析后“翻譯”成銀行或相應部門能夠“理解”的版本,是解決信息不對稱問題的有效途徑。

李克強總理在剛剛結束的兩會上也提到了“互聯網+”和“大數據”的概念,未來幾年的大數據和互聯網的發展基調非常明顯。事實上國內已經有企業在“大數據金融”領域走在了世界的前列,通過大數據手段為中小企業爭取了數十億的純信用融資,并且至今沒有發現一筆不良。大數據的概念在深入人心,大數據成功實踐的案例也在不斷增加。

大數據的魅力在于“通達”,大數據手段可以提高兩種不同語言的溝通效率,可以降低不同經濟領域的跨界難度。尤其對于金融部門,大數據手段恰可以真實反映企業狀況,提前判斷未來可能發生的經營風險。大數據時代來了,谷歌讓兩種語言的溝通更順暢,經濟領域的跨界溝通還會遠嗎?

【責任編輯:管理員】
媒體人,中國日報網專欄作家。