文章/答案/技术大牛

发布

社区首页 >问答首页 >.getResponse代码在有效的IOException上抛出IOException

问.getResponse代码在有效的IOException上抛出IOException
EN

Stack Overflow用户

提问于 2014-04-16 03:15:20

回答 1查看 690关注 0票数 1

我正在构建一个网络爬虫，并有一个方法来检查坏链接。有一次，我试图让HTTP响应代码来确定它是否有效。尽管交给它一个有效的URL (在浏览器中打开它很好)，它仍然返回它是无效的。以下是代码：

public static boolean isBrokenLink(URL baseURL, String theHREF) {
        boolean isBroken = false;
        if (baseURL == null) {
            try {
                baseURL = new URL("HTTP", "cs.uwec.edu/~stevende/cs145testpages/", theHREF);
                System.out.println(baseURL);
            } catch (MalformedURLException e) {
                isBroken = true;
                //e.printStackTrace();
            }
        }
        try {
            URLConnection con = baseURL.openConnection();
            HttpURLConnection httpProtocol = (HttpURLConnection) con;
            System.out.println(httpProtocol.getResponseCode());
            if (httpProtocol.getResponseCode() != 200 && httpProtocol.getResponseCode() == -1) {
                isBroken = true;
            }
        } catch (IOException e) {
            isBroken = true;
            e.printStackTrace();
        }

        return isBroken;
    }   
            }

这里是我要传递的网址。isBroken是返回的布尔值。我将baseURL作为null传递，theHREF作为相对链接传递(page2.htm)。在从字符串中创建URL之后，我正在打印URL。谢谢你的帮助！以下是错误：

java.net.UnknownHostException: cs.uwec.edu/~stevende/cs145testpages/
    at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:178)
    at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
    at java.net.Socket.connect(Socket.java:579)
    at java.net.Socket.connect(Socket.java:528)
    at sun.net.NetworkClient.doConnect(NetworkClient.java:180)
    at sun.net.www.http.HttpClient.openServer(HttpClient.java:432)
    at sun.net.www.http.HttpClient.openServer(HttpClient.java:527)
    at sun.net.www.http.HttpClient.<init>(HttpClient.java:211)
    at sun.net.www.http.HttpClient.New(HttpClient.java:308)
    at sun.net.www.http.HttpClient.New(HttpClient.java:326)
    at sun.net.www.protocol.http.HttpURLConnection.getNewHttpClient(HttpURLConnection.java:996)
    at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:932)
    at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:850)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1300)
    at java.net.HttpURLConnection.getResponseCode(HttpURLConnection.java:468)
    at edu.uwec.cs.carpenne.webcrawler.Webcrawler.isBrokenLink(Webcrawler.java:106)
    at edu.uwec.cs.carpenne.webcrawler.Webcrawler.main(Webcrawler.java:181)

java

http

methods

web-crawler

httpresponse

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-16 03:30:27

异常告诉我们，它使用主机名和本地部分作为(未知)主机。这看起来像是您的URL构造不正确。也许你忘了使用http://前缀或者使用了错误的getter？您可以通过调用baseURL.getHost()、baseURL.getPath()和baseURL.getProtocol()来调试它，查看它是否返回cs.uwec.edu、/~steve...和http。

我刚刚注意到您添加了baseURL和new URL("HTTP", "cs.uwec.edu/~stevende/cs145testpages/", theHREF) --这是错误的，您需要使用new URL("http", "cs.uwec.edu", 80, "/~stevende/cs145testpages/#"+theHREF)。但是，您通常可以跳过锚/ref，因为它不会传输到服务器。

还可以使用单个参数构造函数new URL("http://cs.uwec.edu//~stevende/cs145testpages/")。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23098360

复制

相似问题

问.getResponse代码在有效的IOException上抛出IOException
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问.getResponse代码在有效的IOException上抛出IOExceptionEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问.getResponse代码在有效的IOException上抛出IOException
EN