结构=特征值+目标值
数据降维:
import pandas as pd
from sklearn.decomposition import PCA
#读取表格数据
prior=pd.read_csv('./data/order_products__prior.csv')
products=pd.read_csv('./data/products.csv')
orders=pd.read_csv('./data/orders.csv')
aisles=pd.read_csv('./data/aisles.csv')
_mg=pd.merge(prior,products,on=['product_id','product_id'])
_mg=pd.merge(_mg,orders,on=['order_id','order_id'])
mt=pd.merge(_mg,aisles,on=['aisle_id','aisle_id'])
mt.head(5)
#四张表拼接成一张表
#处理分段数据 所有用户 购买的全部商品一览表
cross=pd.crosstab(mt['user_id'],mt['aisle'])
cross.head(5)
pca=PCA(n_components=0.9)
#数据降维 保存百分之90的有用数据
data=pca.fit_transform(cross)
data.shape