JAVA技巧:Heritrix中扩展自己类的过程

2014-11-23 21:44:31 · 作者: · 浏览: 58

  首先在Heritrix工程中创建类包my.processor.
  接着创建类FrontierScheduleHangD。
  详细代码:
  package my.processor;
  import java.util.logging.Logger;
  import org.archive.crawler.datamodel.CandidateURI;
  import org.archive.crawler.postprocessor.FrontierScheduler;
  public class FrontierScheduleHangD extends FrontierScheduler{
  final static Logger logger=Logger.getLogger(FrontierScheduleHangD.class.getName());
  public FrontierScheduleHangD(String name)
  {
  super(name);
  }
  protected void schedule(CandidateURI caUri)
  {
  String url=caUri.toString();
  if(url.endsWith(".jpg")
  ||url.endsWith(".gif")
  ||url.endsWith(".doc")
  ||url.endsWith(".html"))
  {
  return;
  }
  getController().getFrontier().schedule(caUri);
  }
  }
  接下来就是把自己的类加入到mudules选项中,如下如所示: 




  最后Add自己的Frontier。