1、讀取指定sheet和指定列的內容
data = pd.read_excel("data.xlsx",sheet_name="Sheet1",usecols=["year","code1","code2","name","keywords","type",'new'])
?
2、遍歷數據,對兩列數據相似度比較
for i in range(0,75065):
? ? if data.loc[i]['code2']!=0:
? ? ? ? if data.loc[i]['code1'][:5]==data.loc[i]['code2'][:5]:
? ? ? ? ? ? data.loc[i,'inter']=0
? ? ? ? elif data.loc[i]['code1'][:3]==data.loc[i]['code2'][:3]:
? ? ? ? ? ? data.loc[i,'inter']=1
? ? ? ? elif data.loc[i]['code1'][:1]==data.loc[i]['code2'][:1]:
? ? ? ? ? ? data.loc[i,'inter']=2
? ? ? ? else:
? ? ? ? ? ? data.loc[i,'inter']=3
3、遍歷數據,統計每類分類變量的數量
list= ['fund','year','inter','age','degree','title','institute','economy','gender','type']
for i in range(0,10):
? ? print(data[list[i]].value_counts())
4、遍歷數據,刪除某列為特定值的數據
df_clear = data.drop(data[data['discipline']=="H"].index)
5、正則去掉字符串左邊或者右邊的內容
import re
template = "DF','17340','http://www.zgglkx.com','2021','205')"
delete_left = template.lstrip('"DF')
print(delete_left)
delete_right = template.rstrip('205\')')
print(delete_right)