技术杂谈
  • [Python3网络爬虫开发实战] 7-动态渲染页面爬取

    在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax,我们仍然可以借助requests或urllib来实现数据爬取。不过JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网,它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。比如ECharts的官方实例,其图形都是经过JavaScript计算之后生成的。再有淘宝这种页面,它即使是Ajax获取的数据,但是其Ajax接口含有很多加密参数,我们难以直接找出其规律,也很难直接分析Ajax来抓取。为了解决这些问题,我们

  • [论文笔记] Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

    我们知道,Seq2Seq 现在已经成为了机器翻译、对话聊天、文本摘要等工作的重要模型,真正提出 Seq2Seq 的文章是《Sequence to Sequence Learning with Neural Networks》,但本篇《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》比前者更早使用了 Seq2Seq 模型来解决机器翻译的问题,本文是该篇论文的概述。发布信息2014 年 6 月发布于 Arxiv 上,一作是 Kyunghyun Cho,当时来自蒙特利尔大学,现在在纽约大学任教。摘要这篇论文中提出了一种新的模型,叫做 RNN Encoder-Decoder, 并

  • 中文分词原理及工具

    什么是(监督式)机器学习?简单来说,它的定义如下:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。下面我们来了解一下机器学习的基本术语。标签在简单线性回归中,标签是我们要预测的事物,即y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征在简单线性回归中,特征是输入变量,即x变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:{x1,x2,…xN}在垃圾邮件检测器示例中,特征可能包括:电子邮件文本中

  • 【Python搞搞轻量博客】必要的知识

    今天准备下数据库的,但是我想了想,那玩意讲的东西太多,怕大家一下接受不了,所以数据库那玩意我需要分几篇写,毕竟是重点嘛。So ~ 我来说说今天我要讲的东西:更多的修改配置方法requestsession 讲解自定义错误页面静态文件管理推荐几部书和电影。电影:《阿甘正传》《肖生克的救赎》《这个杀手不太冷》《教父》《辛德勒的名单》《霸王别姬》《美丽人生》《V字仇杀队》书籍:《三体》《消费者行为学》《未来简史》《浪潮之巅》《腾讯传》《数学之美》《只是为了好玩》 Linus的半生自传《黑客与画家》《失控》 必读!好书好电影很多啦。对

  • Flask 静态文件缓存问题

    大家在使用Flask静态文件的时候,每次更新,发现CSS或是Js或者其他的文件不会更新。这是因为浏览器的缓存问题。普遍大家是这几步解决办法。清理浏览器缓存设置浏览器不缓存也有以下这么写的如果是我,我不会这么做,效率很低。

共有1页首页上一页1下一页尾页
Copyright @ 2018 . All rights reserved. 
×