機器之心報道,作者:魔王
只需兩步,將文獻的 arXiv 資訊轉換為正式來源資訊。
伴隨著預印本平臺 arXiv 的廣泛使用,越來越多的研究者喜歡在寫論文參考文獻時直接使用 arXiv 資訊。這看似非常方便,但也存在問題:這篇 arXiv 論文是否在 ACL、EMNLP、NAACL、ICLR 或 AAAI 等學術會議上發表過?
沒錯,在某些情況下,只引用 arXiv 資訊顯得不那麼準確,這種不準確的文獻條目甚至可能會違反某些會議的論文提交或 camera-ready 版本提交規則。
如何解決這一問題呢?最近,上交畢業生、南加州大學博士生林禹臣開發了一個簡單的 Python 工具:Rebiber,它能夠基於 ACL Anthology 和 DBLP 資料庫自動解決這一問題。
項目地址:https://github.com/yuchenlin/rebiber

下圖展示了 Rebiber 的使用示例:

在該示例中,文章的原始資訊來自 Google Scholar,僅包括標題、作者、期刊(arXiv)、年份。而事實上該論文已被 EMNLP 2020 接收,原始資訊顯然不夠準確。
經過 Rebiber 轉換後,原始 arXiv 資訊被轉換為來自正式來源的準確資訊,包括標題、作者、年月、出版商、數字對象識別碼(doi)、網址等詳細內容。
Rebiber 支持的會議包括 ACL Anthology 涵蓋的會議,如 ACL、EMNLP、NAACL 及其 workshop,以及 DBLP 涵蓋的會議,如 ICLR 2020。
目前,Rebiber 支持的會議列表如下所示:

使用者還可以手動添加 DBLP 包含的任意會議:只需從 DBLP 中下載會議 bib 檔案至 data 檔案夾,然後將其轉換為 json 格式,再把路徑添加至 bib_list.txt 即可。
如何使用?
這款工具的使用也很簡單。
首先,運行以下命令列:
git clone https://github.com/yuchenlin/rebiber.git
pip install bibtexparser tqdm
cd rebiber
然後,將文獻條目歸一化為正式格式:
python normalize.py -i example_input.bib -o example_output.bib -l bib_list.txt
只需要簡單的操作,就可以將 arXiv 資訊轉換為正式資訊了。
項目作者簡介

項目作者林禹臣本科畢業於上海交通大學 IEEE 試點班,曾獲上海市優秀本科生獎學金、上海交通大學優異學士學位論文獎,現在南加州大學攻讀電腦科學博士學位,導師為南加州大學電腦科學學院助理教授、情報與知識發現(INK)研究實驗室主任任翔。
他曾在微軟亞洲研究院和谷歌 AI 有多段實習經歷,研究興趣包括構建能夠深度理解世界的神經符號系統、集成資訊提取、知識圖譜、機器推理、圖神經網路和模型魯棒性的技術。近期研究集中在利用常識推理推動自然語言處理(理解與生成)。多篇論文發表在 ICLR、AAAI、EMNLP、KDD、ACL 等學術會議上。
參考連結:https://yuchenlin.xyz/