
2017年被稱為中國金融科技的元年,這兩年來,以人工智能為代表的新技術(shù)對金融業(yè)產(chǎn)生越來越重要的影響 , 人工智能不是一個新名詞,在歷史的長河里,它從人們曾忘卻的暗流慢慢匯聚成今天的大江大河 。自然語言處理作為人工智能的支流,也隨著它的發(fā)展浪潮逐漸展現(xiàn)它的潛能 。這次浪潮如此之大,讓全球的金融行業(yè)都感受到它的濕意,雖然人工智能不能全部替代人工,自然語言處理也不能完全認知這個復(fù)雜的世界,但是它的發(fā)展之勢勢不可擋,作為金融行業(yè)從業(yè)者應(yīng)該提前預(yù)判未來,早做投入,才能在未來金融科技的“軍備競賽”中有足夠的彈藥儲備,立于不敗之地甚至引領(lǐng)行業(yè)發(fā)展 。
凡是過往,皆為序章 。只有了解人工智能的過去,才能更好地暢想未來 。人工智能的歷史源遠流長,這是人類自古以來的夢想 。夢想很重要,因為許多偉大的事業(yè)都源于夢想,沒有夢想哪來的奮斗熱情 。大約在公元前900年西周時期 , 中國的能工巧匠偃師就研制出了能歌善舞的伶人,這是中國最早記載的機器人 。春秋后期,中國著名的木匠魯班,在機械方面也是一位發(fā)明家,據(jù)《墨經(jīng)》記載,魯班曾制造過一只木鳥,能在空中飛行“三日不下” 。
不過人工智能線年 , 英國數(shù)學(xué)家、計算機之父艾倫圖靈在他的一篇《理想計算機》的論文中,就提出了著名的“圖靈機模型”,1945年他進一步論述了電子數(shù)字計算機設(shè)計思想 , 1950年他又在《機器會思考嗎?》一文中提出著名的“圖靈測試”——一個人在不接觸對方的情況下,通過一種特殊的方式,和對方進行一系列的問答 。如果在相當(dāng)長時間內(nèi),他無法根據(jù)這些問題判斷對方是人還是計算機,那么就可以認為這個計算機具有同人相當(dāng)?shù)闹橇Γ催@臺計算機是智能的 。這一測試的本質(zhì)是讓人類測試機器是不是智能的,自此“人機大戰(zhàn)”成了人工智能的試金石,在人工智能的發(fā)展史中一幕幕地上演 。
而“人工智能”一詞線年Dartmouth的會議上,由四位圖靈獎得主、信息論創(chuàng)始人和一位諾貝爾獎得主一起將人工智能的名詞定義出來,包括明斯基、西蒙、麥卡塞等等 , 這次會議被公認為人工智能研究的出生典禮 。
第一次是發(fā)明了神經(jīng)網(wǎng)絡(luò)感知機,看起來很像人的神經(jīng) , 卻不能模擬稍微一點復(fù)雜的問題,所以很快進入第一次低潮 。
第二次浪潮是伴隨著計算機的興起,1997年,IBM的深藍在決定勝負的第六個回合中,只用了22步便迫使卡斯帕羅夫投子認負——這是棋王職業(yè)生涯里最快的失利,讓全世界人類對人工智能的追捧達到了一定的高峰,但是這時候發(fā)明的BP神經(jīng)網(wǎng)絡(luò)或者其他網(wǎng)絡(luò)最大的問題是,數(shù)據(jù)量少,深度不夠 , 解決不了太多問題,因此2000年左右又破滅了 。
這時候自然語言處理的發(fā)展也同步被提升,怎么把一個詞語表示成一組數(shù)學(xué)符號,并聯(lián)系上下文,這是一個問題,2013年谷歌提出的word2vec就是一個非常大的進步,現(xiàn)在很多人還在用這個詞向量模型,讓NLP真正激蕩出令人期待的火花 。接著2014年seq2seq , 可以解決中英文翻譯的問題,谷歌的NMT模型超越了以往所有語言模型的效果,這導(dǎo)致國內(nèi)有道、金山詞霸、搜狗翻譯都用了NMT模型,而拋棄了以前基于統(tǒng)計的SMT模型 。2017年的Elmo,2018年的Bert模型被認為開啟了NLP新時代,2019年2月的Gpt2模型,因為太強大擔(dān)心被壞人破壞為由,只公開了部分模型 。OpenAI 訓(xùn)練了一個大型無監(jiān)督語言模型,能夠生產(chǎn)連貫的文本段落,在許多語言建模基準(zhǔn)上取得了 SOTA 表現(xiàn) 。而且該模型在沒有任務(wù)特定訓(xùn)練的情況下,能夠做到初步的閱讀理解、機器翻譯、問答和自動摘要 。微軟亞洲研究院和哈工大都先后發(fā)表文章,NLP引來了黃金發(fā)展時期,正趕上科創(chuàng)板元年,NLP技術(shù)和中國版“納斯達克”邂逅,未來將點燃人工智能的熊熊大火,人工智能、自然語言處理領(lǐng)域的創(chuàng)業(yè)變成了風(fēng)口,也成為了未來幾十年中國產(chǎn)業(yè)結(jié)構(gòu)化調(diào)整,轉(zhuǎn)型中高端的動能之一 。
任何事情都有泡沫 , 但持續(xù)積累需要板凳要做十年冷的精神,神經(jīng)網(wǎng)絡(luò)從一出生到幾次浪潮,后來成為冷門又成為大熱門,這個過程讓人感觸,就在剛過去的北京時間3月27日晚 , ACM(計算機協(xié)會)宣布把 2018 年度圖靈獎頒給了深度學(xué)習(xí)“三巨頭”Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,以表彰他們在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)上的工作 。全世界都欠著三個人的獎項,三十年的堅持,歷經(jīng)漫漫長夜 , 他們的信念改變了自己的命運,也推動了人工智能新浪潮的發(fā)展 。
2017年算是金融科技的正式元年 , 這兩三年,金融科技創(chuàng)業(yè)公司如雨后春筍,例如做金融數(shù)據(jù)搜索的香儂科技,做公告結(jié)構(gòu)化的鼎復(fù)科技 , pdf圖表檢測和復(fù)原的庖丁科技,阿博茨、文因互聯(lián)、阡尋科技等等,至少五六十家相關(guān)的公司 。
智能投研方向到底該怎么做?我們的理解是深度結(jié)合業(yè)務(wù),平臺化的基礎(chǔ)架構(gòu),優(yōu)化算法,不斷持續(xù)積累數(shù)據(jù)、系統(tǒng)開發(fā)經(jīng)驗,形成自己的金融科技“護城河” 。許多公司可能沒有業(yè)務(wù)支撐,做的產(chǎn)品往往都是一廂情愿,帶有一定的理想主義虛幻色彩,而不是真正領(lǐng)會市場和投資需求之后,深度融合業(yè)務(wù)思想再落地生根的 。
美國在自然語言處理結(jié)合投資研究領(lǐng)域率先進行探索 , 也基本想成了頭部玩家掌握更多資源、擁有知名度和話語權(quán)的局面,例如明星公司Kensho,試圖構(gòu)建全世界最大的國際事件數(shù)據(jù)庫及知識圖譜模型 , 來解決當(dāng)今投資分析的“速度、規(guī)模、自動化”三大挑戰(zhàn)問題 。Kensho的主打產(chǎn)品,叫“Warren”,可以通過掃描超過9萬項全球事件,如藥物審批、經(jīng)濟報告、貨幣政策等幾乎地球上所有金融資產(chǎn)影響的事件,立即找到6500萬個問題組合的答案 。用戶只需要在簡單的文本框里輸入非常復(fù)雜的問題——使用直白的英語 。例如:當(dāng)颶風(fēng)襲擊福羅里達州時,哪支水泥股的漲幅會最大?(最大的贏家是誰?德州工業(yè)[Texas Industries]) 。同樣,當(dāng)朝鮮試射導(dǎo)彈時夫妻情感語錄,哪支國防股會漲得最多?(雷神公司[Raytheon]、美國通用動力公司[General Dynamics]、和洛克希德馬丁公司[Lockheed Martin]) 。當(dāng)蘋果公司發(fā)布新iPad時,哪家蘋果公司的供應(yīng)商股價上漲幅度會最大?(為iPad內(nèi)置攝像頭生產(chǎn)傳感器的豪威科技股份有限公司[OmniVision]) 。
另外Kensho也發(fā)布了復(fù)雜的知識圖譜產(chǎn)品“Visallo” , 能夠從海量的大數(shù)據(jù)中發(fā)現(xiàn)公司、組織、人物之間隱藏的關(guān)系,再和它的事件檢測、事件影響分析系統(tǒng)聯(lián)合在一起 , Kensho構(gòu)建了一個強大的量化投研體系 。
2000年,貝萊德的創(chuàng)始人拉里芬克(Larry Fink)組建了貝萊德解決方案公司(BlackRock Solutions),并開發(fā)出了一個被稱作“阿拉丁”(Aladdin)的風(fēng)險管理系統(tǒng) 。目前該系統(tǒng)已整合為一體化的投資交易風(fēng)控平臺 , 叫做“阿拉丁平臺”(Aladdin Platform) 。
Aladdin的大型數(shù)據(jù)管理中心位于美國的華盛頓州,據(jù)稱有上萬臺計算機,24小時運行,上面跑著數(shù)十億個經(jīng)濟場景的預(yù)測 , 并根據(jù)這些預(yù)測,檢查客戶投資組合中的每一項資產(chǎn),對投資組合進行診斷 。這些機器日復(fù)一日地記錄和存儲著歷史事件,包括利率和匯率的變動、惡劣的天氣災(zāi)難,丑聞等,再通過蒙特卡洛模擬,建立統(tǒng)計模型,計算它們對其管理的資產(chǎn)所存在的潛在影響 。
Aladdin的強大在于它這個平臺管理的資產(chǎn)規(guī)模在2017年據(jù)傳已經(jīng)超過了15萬億美金,全球225萬億美元金融總資產(chǎn)的7% 。另外看網(wǎng)上說貝萊德的Aladdin業(yè)務(wù)在全球范圍內(nèi)的用戶數(shù)量已增加至 25000位,可以想象,其背后管理的資產(chǎn)規(guī)模目前會是何等的龐大 。
大家都知道百度、谷歌搜索引擎,可以在全網(wǎng)搜索自己想要的內(nèi)容 , 但是它不是針對金融的,所以在搜索的過程中會有很多無用的、和金融無關(guān)的信息,而且金融中需要的許多文件、數(shù)據(jù),一般都在相應(yīng)的專業(yè)網(wǎng)站上才能發(fā)布,和廣義的通用的搜索引擎還是很不一樣 。
AlphaSense就是在這種需求的背景下應(yīng)運而生,它可以實時抓取,并能搜索合同、募股說明書、新聞輿情、研究報告、金融類風(fēng)險管理函、政府?dāng)?shù)據(jù)網(wǎng)站 , 將html、pdf等文件進行結(jié)構(gòu)化,并將高級語言搜索和自然語言處理算法融合,對這些文件信息進行語義分析并提取,例如可以輸入某家公司,就可以搜索到實時的、歷史的新聞,相應(yīng)的研究報告、宏觀研究數(shù)據(jù)等等,可以極大地提升效率 , 解決了金融信息豐富度和碎片化的問題,并且第一時間監(jiān)控某個關(guān)鍵詞或某個公司的情況,降低風(fēng)險 。目前國內(nèi)也在做類似搜索引擎的公司有香儂科技、阿博茨、IBData、虎博科技等 。
2013年4月23日,擁有190萬粉絲的美聯(lián)社“推特”賬號發(fā)出一條快訊:“突發(fā)新聞:白宮發(fā)生兩起爆炸,貝拉克·奧巴馬受傷” 。雖然事后被證實是假新聞,4月23日收盤時,道指漲152.29點,至14719.46點,漲幅1.05% 。但傷害已經(jīng)造成,利用所謂“算法”進行交易的交易員已采取了拋售行為 。
在掃描到包括“推特”和Facebook等社交網(wǎng)站發(fā)布的新聞信息之后,這些“算法”會自動執(zhí)行買賣股票的指令 。這個事件再度揭露了由電腦推動的高頻交易對沖基金的影響 。
前文我們介紹了自然語言處理在國內(nèi)外投資領(lǐng)域應(yīng)用的現(xiàn)狀,本節(jié)將重點介紹自然語言處理在我們內(nèi)部的實施路線
對于私募客戶,可能不一定非常關(guān)心超額收益,但是一定會關(guān)心風(fēng)險控制能力 。投資交易因為涉及到多因子,輿情作為因子之一,其有效性還需要繼續(xù)探討 。
在講爬蟲的過程中為什么會聚焦于“極速”?因為對于風(fēng)險監(jiān)控來說 , 風(fēng)險事件感知的越早,那么在風(fēng)險來臨的時候就會更加從容,在投資領(lǐng)域也一樣,進展獲得相關(guān)消息,就可以及時采取措施而使得相關(guān)利益最大化 。例如最近的天嘉宜化工爆炸事件,怎樣在第一時間知道這條信息?我們認為:爬蟲一定要快、全面 。基于爬取的最新新聞,通過自然語言處理技術(shù),比如通過關(guān)鍵詞、公司名、人物名做定向監(jiān)控 , 并及時應(yīng)用于決策 。
事實上,網(wǎng)站的數(shù)據(jù)更新還是比較慢,因為要經(jīng)過人工編輯、審核、發(fā)布,所以我們考慮接入新浪微博實時數(shù)據(jù)來擴充數(shù)據(jù)源 。
抓取到各種新聞數(shù)據(jù)后,還需要和行業(yè)、個股關(guān)聯(lián)到一起 , 并通過機器學(xué)習(xí)、深度學(xué)習(xí)做情感分類、事件標(biāo)簽等 。
在業(yè)務(wù)層面,研究者會關(guān)注上市公司董監(jiān)高近期的輿情變化,這里面就會涉及新聞中包含公司、人物的提?。?同時對于提取出來的公司和人物,進一步分析其公開講話,了解其關(guān)注的業(yè)務(wù)重心,以及描述他們這些主體的情感面,包括這些新聞的熱度變化情況 。
一般情況下 , 在公司沒有發(fā)生任何事件時,其熱度及新聞報道量是很平穩(wěn)的、稀疏的甚至沒有 , 但是一旦有事件發(fā)生,公司的新聞熱度就會增加,如果事件嚴重程度較大,新聞熱度就會激增 。這時候就需要我們具備及時獲取信息的能力 。能不能在這個事件的熱度發(fā)酵到高峰之前獲悉?在這里我們構(gòu)建了一個熱度異常的算法,能夠在熱度曲線突然變化時報警 。
技術(shù)思路主要是以滑動時間窗來劃分時間周期,計算某個公司主體在每個周期內(nèi)的新聞熱度比(這個公司主體在當(dāng)前計算周期t內(nèi)被報道次數(shù)占所有公司報道次數(shù)的百分比) , 并對比上一個周期得到新聞熱度比的變化率,綜合計算,得到變化的幅度值c,一旦超過c值就認為熱度異常增加 , 進行報警,并且在這時通過句法分析,語義分析自動提取出發(fā)生的熱點事件 。
一般情況下,都會通過標(biāo)題 正文來做文本分類的方式給新聞、公告打標(biāo)簽,這種情況下,由于文本長短不一,正文可能要做文本截斷 。這就會導(dǎo)致部分信息缺失,可見其局限性 。為了詳細描述新聞里面的信息,我們將其進行分解,例如一篇新聞可能是通篇講新能源 , 情感面是趨向于正面的,但是里面可能會提到一句“樂視汽車”,那“樂視汽車”周邊幾句話是負面的理智與情感人物介紹,要做面向評價對象主體的、句子級別的情感面分析 。意思是樂視汽車,提到情感面是負面的,而通篇文章認為還是正面的 。
截至目前,綜合歷史新聞資訊數(shù)據(jù) , 我們整理了一千多類事件標(biāo)簽,同時事件標(biāo)簽都有重要等級程度,收集到每條數(shù)據(jù)之后,就會自動獲取對應(yīng)包含的事件,同時根據(jù)事件的重要程度決定是否需要報警,如需報警則會立馬啟動 。但目前來看 , 這些整理出來的事件還不夠全面,需要持續(xù)迭代更新 。
美國Kensho建立的民用領(lǐng)域最大的非結(jié)構(gòu)化地緣和全球自然事件數(shù)據(jù)庫,并用納斯達克集團的云計算平臺FinQloud進行數(shù)據(jù)存儲 , 以保證數(shù)據(jù)安全 。
對于金融投資領(lǐng)域的數(shù)據(jù)源,除了新聞,公告也占了較大的比重 , 通過將所有年報公告(91類公告)分別進行結(jié)構(gòu)化處理,首先將公告分類 , 然后解析公告內(nèi)容、還原公告目錄,在歷史公告庫中,可以隨意搜索公告數(shù)據(jù) 。
基于上面講到的數(shù)據(jù)源:新聞和公告,在經(jīng)過標(biāo)簽體系結(jié)構(gòu)化處理之后,就可以借助知識圖譜做一系列的事情 。比如:天嘉宜化工廠爆炸死亡xx人 , 這個事件嚴重程度比較高 , 從圖譜的角度來看夫妻情感語錄,這個公司可能影響到誰?其產(chǎn)業(yè)鏈上下游是哪些公司?其董監(jiān)高是誰?和它類似的公司都有哪些?
但很可惜,金融知識圖譜一般都是通過工商關(guān)系關(guān)聯(lián)的,擁有了工商數(shù)據(jù),相關(guān)知識從哪里獲?。炕故悄錳旒我嘶の?。從工商數(shù)據(jù)角度上看 , 其和其他公司似乎沒有什么關(guān)聯(lián) 。但實際通過網(wǎng)絡(luò)搜索,我們還是能夠獲取一些和它有關(guān)聯(lián)的公司,甚至是其歷史報道,這個時候就要考驗我們在知識圖譜中的關(guān)系補充能力 。
公告、募股說明書里面披露的供應(yīng)商關(guān)系、客戶關(guān)系數(shù)據(jù),輿情里提取出共現(xiàn)的關(guān)系數(shù)據(jù)等 , 都可以用來補充企業(yè)關(guān)聯(lián)關(guān)系數(shù)據(jù) 。為了提高關(guān)系補充是效率,可以嘗試自動化提取產(chǎn)業(yè)鏈上下游 。比如:通過句法分析,通過deepdive框架并加以遠程監(jiān)督,來提取上下游企業(yè)關(guān)系數(shù)據(jù),當(dāng)然還需要人為地添加和Review 。
可見金融文檔結(jié)構(gòu)化,是支撐金融數(shù)據(jù)化研究和運營的關(guān)鍵技術(shù) 。例如:分析財報數(shù)據(jù)用于投資分析,審查審閱合同、募股說明書等 。在投行部門有許多募股說明書需要復(fù)核,就可以通過STR技術(shù)來獲取相關(guān)表格,數(shù)字指標(biāo)并自動審核,這樣就可以自動化做一些工作提升效率 , 也避免一些可能的錯誤 。像Wind、財匯等金融數(shù)據(jù)生產(chǎn)公司 , 傳統(tǒng)的方式是通過人工制定大量規(guī)則來達到預(yù)期90%的準(zhǔn)確率 。而現(xiàn)在隨著機器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,借助這些新型技術(shù)能夠大量節(jié)約成本,高效達到預(yù)期的同時能夠支持更多的場景 。目前Wind、通聯(lián)數(shù)據(jù)也在已有的技術(shù)基礎(chǔ)上向自然語言處理、深度學(xué)習(xí)的方向轉(zhuǎn)變 。而自然語言處理技術(shù)的出現(xiàn)帶來了一套全新的規(guī)則,要改變、適應(yīng)、演變甚至成熟還是一個較大的挑戰(zhàn) 。
傳統(tǒng)的基于圖像處理的技術(shù),存在適應(yīng)性差 , 需要大規(guī)模調(diào)參的問題 。近些年隨著深度學(xué)習(xí)技術(shù)的發(fā)展 , 基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)發(fā)展迅速 。出現(xiàn)了如R-CNN,F(xiàn)aster-RCNN,YOLO,SSD等目標(biāo)檢測模型 。深度學(xué)習(xí)的目標(biāo)檢測具有適應(yīng)性強,學(xué)習(xí)能力強等特點 。YOLO、SSD等基于Look Once思想的模型在基本保證準(zhǔn)確性的前提下 , 大幅提升了處理性能 。而基于darknet的YOLOv3模型,依賴少,訓(xùn)練部署簡便 。從處理性能 , 部署便利性綜合評估,選擇了YOLOv3模型作為表格檢測的核心模型 。
EAST模型的Pipeline直接預(yù)測圖像中任意方向和矩形形狀的文本或文本行,通過單個神經(jīng)網(wǎng)絡(luò)消除不必要的中間步驟(例如候選聚合和單詞分割) 。EAST有三個重要的特點:
(1) 提出了一個由兩階段組成的場景文本檢測方法:FCN階段和NMS階段 。FCN直接生成文本區(qū)域,不包括冗余和耗時的中間步驟 。(2) 該pipeline可靈活生成單字級或行級文本預(yù)測,其幾何形狀可為旋轉(zhuǎn)框或矩形 。(3) 算法在準(zhǔn)確性和速度上有較明顯的性能優(yōu)勢 。
完成字符提取之后,就可以根據(jù)字符的位置關(guān)系和連通性,補充連接,最終能夠提取出連續(xù)文本框 。連接補充主要基于傳統(tǒng)的圖像處理算法 。首先采用形態(tài)學(xué)變換,將離散的文字變換為連通的區(qū)域 。形態(tài)學(xué)變換的基本操作是膨脹 (Dilation)和腐蝕 (Erosion),高級的包括開運算(Opening)、閉運算 (Closing)、形態(tài)梯度 (Morphological Gradient)等 。
智能外呼顧名思義就是自動給客戶打電話,有時候可能成為營銷騷擾電話,從提效的方向考慮,可以自動對用戶進行回訪,調(diào)查客戶滿意度夫妻情感語錄 。我們就和客戶服務(wù)中心在做這方面的工作,主要是其中的NLP部分 。
這里有必要解釋一下為什么要加上規(guī)則系統(tǒng),因為對于深度學(xué)習(xí)來說 , 他并不是萬能的 , 能夠通過深度學(xué)習(xí)解決的問題一般都是重復(fù)出現(xiàn),有一定積累的問題,而對于新問題而言,由于沒有歷史數(shù)據(jù)的積累,無法進行學(xué)習(xí),此時就有必要加入規(guī)則系統(tǒng) 。這個問題不僅在NLP方面會遇到,在人工智能的任一領(lǐng)域都會遇到 。所以必須要有規(guī)則,80%的自動化 20%的人工,才能得到問題的最優(yōu)解 。
時代的浪潮滾滾向前,技術(shù)的發(fā)展日新月異,人工智能的發(fā)展也是這樣波濤起伏,期待著它將隨著科創(chuàng)板的春風(fēng)破浪而去 。
2018年5月 , Google IO大會上,谷歌CEO桑達爾.皮查伊展示了Google Assistant打電話的過程,直接打給美國中餐館的服務(wù)員 , 自動完成了整個訂餐過程 。Google在這個技術(shù)上持續(xù)耕耘了很多年,產(chǎn)品叫Google Duplex,后面將持續(xù)研發(fā)理智與情感人物介紹,當(dāng)然微軟也有微軟小冰 。
現(xiàn)在的金融文檔智能化主要是處理公告、年報、募股說明書、合同、債券募集說明書等 , 實現(xiàn)60%左右的智能化,剩下的都是各色各樣比較難啃的骨頭 。
例如針對公告,對于非掃描版文件 , 能達到90%的自動化處理,pdf里面有表格標(biāo)簽,可以很方便地把pdf轉(zhuǎn)為html格式,然后還原出表格 。對于掃描版文件(占公告總體的10%左右) , 這里面只有60%能處理掉,剩余的40%樣式各異,主要包括:無邊框缺邊框、標(biāo)題反色、有底紋、跨頁夫妻情感語錄、單頁多欄表格等各種格式的處理 。
未來的金融爬蟲應(yīng)該是接近于百度的搜索引擎 , 甚至發(fā)展成為金融社區(qū)、自媒體等 。除此之外,我們也在考慮如何拿到自媒體的數(shù)據(jù)做監(jiān)控 。例如我們面向目標(biāo)對象評價的情感算法精準(zhǔn)度、召回率有多高 , 如何保證穩(wěn)定精準(zhǔn)地運行 。例如“天嘉宜化工廠爆炸”事件,它初步來看是負面的,負面新聞的主體是天嘉宜化工廠,然后爆炸事件可能是非常嚴重的負面事件 。這個事件的嚴重等級需要人工列出來 。它會影響到上下游哪些公司,上下游產(chǎn)業(yè)鏈怎么自動、半自動地構(gòu)建?知識圖譜可以在這里做得非常深入 。
科創(chuàng)板出臺后,我們相信對于中小型科技企業(yè)的關(guān)系查詢、全面的風(fēng)險控制能力提出了更全面、更實時的要求,所以爬蟲能力 NLP算法技術(shù)能力 知識圖譜是我們持續(xù)跟進的方向 。
在投研領(lǐng)域,數(shù)據(jù)是業(yè)務(wù)的核心和基礎(chǔ) 。金融行業(yè)的數(shù)據(jù)基本上分為兩種類型,一種是傳統(tǒng)金融數(shù)據(jù),通過自動化的方式收集、整理市場公開信息 , 將非機構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù) 。另外一種是特色數(shù)據(jù)或者另類數(shù)據(jù),例如衛(wèi)星圖片、某些通過App攔截的特殊數(shù)據(jù)等 。
至于事件驅(qū)動投資的信號,也是越來越難找,以前的“高送轉(zhuǎn)、股東分紅”都基本失效了,在海量信息的噪聲中,如何找到有效的投資事件信號?我們將重點基于極速的爬蟲 事件信號的提取技術(shù)進行攻關(guān) 。
在A場上,包括各大券商的研究所有上萬的研究員,他們研究行業(yè)、公司、公告、財務(wù)數(shù)據(jù) , 有明確的研究思路、特定的研究框架,隨著時間的積累 , 他們的研究都比較透徹 。但是這些研究工作總體來看,也有特定的格式,那么基于上述我們的自然語言處理工作,是否能夠?qū)崿F(xiàn)一些研報的自動化生產(chǎn)工作呢?
事實上 , 我們也做過一些探索 。大致思路如下:數(shù)據(jù)是血液,研究框架是筋骨夫妻情感語錄,自然語言的語句生成是皮膚是包裝 。舉個例子,如果研究汽車行業(yè),我們得了解汽車行業(yè)的研究背景、宏觀發(fā)展,上下游產(chǎn)業(yè)鏈 , 國家政策等宏觀數(shù)據(jù),這些就是數(shù)據(jù),然后可能分為新能源電動車、豪華車等 , 最后提出對幾個龍頭企業(yè)例如福特、大眾的看法 。
這里面可能需要用到一些文本摘要技術(shù) , 例如家電行業(yè)是不是出了國家的什么政策 , 我們就要把政策摘要出來,然后放到相應(yīng)的研究框架節(jié)點里 。最后還可以通過一些CopyNet的技術(shù)讓語句更通順 。
面向C端的智能投顧,在對話技術(shù)越加成熟以后,也可能會用到這些來應(yīng)對投資者的問題 , 投資者可以簡單問“招商銀行怎么樣”,我們能自動地應(yīng)答,這樣就節(jié)省了人力,另外還能解決一些普通查詢不好查的問題,例如i問財?shù)摹百F州茅臺過去十年的roe情況” , “macd底部趨勢反轉(zhuǎn)的股票有哪些”等問題 。
但是對于智能投顧來說,這種對話機器人技術(shù)只是解決了效率提升的問題,沒有解決根本的資產(chǎn)配置問題理智與情感人物介紹,總體來講在中國的金融公司中是“雷聲大雨點小” 。
源自《金融界銀行》的報告中說,中國銀行“中銀慧投”、工商銀行“AI投”、招行的“摩羯智投”都表現(xiàn)不佳,有的跑輸貨幣基金有的跑輸股票型基金 。目前中國全市場沒有一款敢號稱賺錢的智能投顧,這當(dāng)然也有另外一個原因,中國的市場和美國的市場不太一樣,美國市場重視基本面價值投資 , 中國的股票市場充滿了短期投機的氛圍,客戶的錢給了智能投顧 , 三個月內(nèi)虧了,客戶就心虛了要贖回,巨幅回撤帶給客戶的壓力是巨大的,虧損20%能忍 , 但如果一直往下走,虧到40%怎么辦?50%呢?投資人往往在快熬到頭的時候 , 心里的最后一道防線被突破,清倉走人 。所以短期的智能投顧很難做,甚至有的人提出智能投顧要做一年期以上 。
從目前來看,面向C端的智能投顧淪為營銷工具,某些公司拿來宣傳金融科技是可以的,但實際情況差強人意 。
智能投顧的優(yōu)勢是提升了效率,也不用人去管理,所以就可以大幅度降低費率 。例如對于一支ETF指數(shù)基金,對于被動型管理基金,完全可以通過全自動的模型算法來去做,例如國外的Schwab公司可以做到0費率 , 中國對于基金管理費還是過高 。
智能投顧自動調(diào)倉功能涉及我國的資產(chǎn)管理業(yè)務(wù) 。該自動調(diào)倉功能在澳大利亞證券業(yè)內(nèi)被稱為“全權(quán)委托賬戶”服務(wù),在我國法律法規(guī)中稱作“代客理財”業(yè)務(wù) 。智能投顧在業(yè)務(wù)方位、自動調(diào)倉、客戶適當(dāng)性義務(wù)上還存在一定的不確定性的合規(guī)法律風(fēng)險,調(diào)倉涉及的管理費也是個問題 。
智能投顧是模型是基于風(fēng)險組合、統(tǒng)計學(xué)模型的 , 那么如何應(yīng)付黑天鵝?這也是很復(fù)雜的事情,光是組合管理是不夠的,基于馬科維茨風(fēng)險均值方差理論的組合管理只是在鈍化你對于風(fēng)險的感受 , 但是它并不能防止虧錢 。
怎么樣把這個數(shù)據(jù)通用化,實現(xiàn)小樣本、遷移學(xué)習(xí)、實時智能反?。庋嬲迪幀氨嘸嗜斯ぶ悄堋薄ⅰ笆凳比斯ぶ悄堋保?解決邊際效應(yīng)的問題,是我們未來自然語言處理技術(shù)的一個方向 。
【夫妻情感語錄理智與情感人物介紹】道路是曲折的,未來是光明的 。人工智能大數(shù)據(jù)技術(shù)不斷植入到金融體系之后,金融的DNA已悄然改變,這種說法有一種科幻和冒昧的味道 。但人工智能、自然語言處理背后絕不是投機主義,而是基于算法、算力、數(shù)據(jù)、經(jīng)驗規(guī)則的持續(xù)積累,對科技文化、對人才的尊重和渴求,對行業(yè)格局的深邃洞悉,是對人類最初夢想的追逐,是我們長期堅持要形成的助力金融創(chuàng)新的“硬科技” 。
猜你喜歡
- 人類的基本情感語文情感有哪些
- 唯美情感心語科普文案100例
- 情感冷漠癥的人的戀愛
- 情感類自媒體簡介知乎 情感博主推薦
- 戀愛學(xué)堂情感情感文案短文
- 正規(guī)的情感挽回機構(gòu)
- 情感號簡介對親人的情感詞語
- 夫妻雙方在國外怎么離婚 夫妻雙方均在國外居住怎樣起訴離婚
- 夫妻共同創(chuàng)業(yè)離婚后怎么分財產(chǎn) 離婚后,怎么分財產(chǎn)
- 雙向情感障礙能治好嗎雙向情感障礙是什么
