這些Pandas演示tips,你一定相見恨晚……

全文共1042字,預計學習時長5分鐘

圖源:unsplash

Pandas在資料分析中的重要作用不必多言。不管是Confluence上的一篇文章、GitHub中Readme文件,抑或一篇科學論文,每個專案都會以報告之類來收尾。

使用Pandas,就不必再將資料幀(DataFrame)裡的值逐一複製到另一個軟體中,它的格式化函式能夠將資料幀轉換成多種格式。

無論是學生、資料科學家還是博士研究人員,這些技巧都一定能幫到你。

圖源:medium.com

下載Jupyter notebook,一起動動小手來試試吧!

設定

建立一個10行3列的資料幀,數值隨機。

n =10df = pd.DataFrame(    {        "col1": np.random.random_sample(n),        "col2": np.random.random_sample(n),        "col3": [[random.randint(0,10) for _ in range(random.randint(3, 5))] for _ inrange(n)],    })

與HTML共享結果

通過使用to_html函式,可以將Pandas資料幀轉換為HTML,這對於通過HTML傳送自動報告十分有用。還可以在pandas分析伺服器上製作API,這樣就可以在網頁瀏覽器的資料幀中追蹤最新數值。

注意,這需要用到lxml軟體包,可以用pip安裝lxml。

df_html =df.to_html()with open( analysis.html ,  w ) as f:    f.write(df_html)

read_html函式甚至可以將HTML解析為pandas資料幀。筆者還沒有使用過通用HTML進行嘗試,但無疑會很有用。

df_list =pd.read_html( analysis.html )df_list

編寫檔案

在程式碼中編寫註釋時,將資料幀轉換為字串會非常有用。

print(df.to_string())

Excel電子表格

Excel的大佬地位毋庸置疑,而Pandas能夠將資料幀轉化為Excel電子表格。使用pandas,人們可以輕鬆閱讀Excel電子表格。

注意,需要xlwt和openpyxl軟體包,可以用pip進行安裝。

df.to_excel( analysis.xlsx ,index=False)

pd.read_excel( analysis.xlsx )

Github創作

在儲存庫中,Github使用Markdown格式語言來編寫README和Wiki檔案。一個優秀的README檔案能讓專案更有可能被其他人採用。雖然在GitHub上逐步進行示範相當普遍,但將pandas資料幀手動格式化為markdown標記語言,會花費大量時間。這時Pandas可就幫了我們大忙。

print(df.to_markdown())

撰寫科學論文

大部分高質量的研究論文都是用LaTeX——一個高質量的排版系統編寫而成。許多LaTeX作者製作資料幀截圖,然後放在自己的論文中,還有許多人花了相當多的時間將資料幀的值格式化為LaTe X表格。

圖源:unsplash

pandas中的to_latex函式可以幫助人們完成繁重的任務。來看看這個例子:

df.to_latex()

結合使用print函式,你可以得到一個格式工整的輸出結果。

print(df.to_latex())

這些技巧幫到你了嗎?

相關文章

誰拖了中國ChatGPT的後腿?

誰拖了中國ChatGPT的後腿?

作者|駱軼航 郵箱|tluo@pingwest.com ChatGPT已經成了全球資訊技術產業界毋庸置疑的現象級產品。 它以「通用人工智慧」...

全球化公司起名指北

全球化公司起名指北

作者|王博源 郵箱|boyuan@pingwest.com 起名是門藝術,大部分公司商號和人的姓名一樣也承載了起名人良好的祝願(當然也有為順...