99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

合肥生活安徽新聞合肥交通合肥房產生活服務合肥教育合肥招聘合肥旅游文化藝術合肥美食合肥地圖合肥社保合肥醫院企業服務合肥法律

代寫MET CS777 Large-Scale Text Processing

時間:2024-02-25  來源:合肥網hfw.cc  作者:hfw.cc 我要糾錯


Assignment 4

 

Large-Scale Text Processing

 

MET CS777

 

Description

 

In this assignment you will implement k-nearest neighbor classifier (KNNclassifier) to classify text documents. For example, given a search text “ How many goals did

 

Vancouver score last year?”, the algorithm searches all the documents corpus (corpus: large and structural text) and returns the top K similar documents.

 

The TF-IDF (Term Frequency - Inverse Document Frequency) is used as the similarity/distance measure between two document/texts.

 

In the first step, the top 20k English words of the corpus will be selected, then the TF-IDF matrix of a text corpus get computed, which is used to find similarity between the texts.

 

Wikipedia dataset

 

In this assignment, the Wikipedia data set is used. The entire Wikipedia data set has been downloaded from (https://dumps.wikimedia.org) and stored in a large file.

 

Each Wikipedia Page is a document and have a unique document ID and a

 

specific URL. For example,

 

• docID 418348

 

• URLhttps://en.wikipedia.org/wiki?curid=418348

 

Data format

 

Each line is a single document in a pseudo XML format.

 

 

 

Small Data Set - Wikipedia Pages

 

You can find a small data set (Only 1000 Wikipedia pages) on AWS S3:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1000LinesSmall.txt

 

Large Data Set

 

Large data set consists of 1 million pages (2.2 GB) and can be found here:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1m.txt

 

Categories of the large data of Wikipedia can be found here:

 

s3://metcs777-sp24/data/wiki-categorylinks.csv.bz2

 

Templates

 

Use Assignment4-Template.[ipynb/py] as starting point for your implementation.

 

Tasks

 

Task 1 (10 points): Generate a 20K dictionary

 

Task 1.1 - Using Wikipedia pages, find the top 20,000 English words, save them in an array, and sort them based on the frequency of the occurrence.

 

Task 1.2 - As a result, adictionary has been generated that contains the top 20K most frequent words in the corpus. Next go over each Wikipedia document and check if the words appear in the Top 20K words. At the end, produce an RDD that includes the docID as key and a Numpy array for the position of each word in the top 20K dictionary.

 

(docID, [dictionaryPos1,dictionaryPos2,dictionaryPos3...])

 

Task 2 (20 Points): Create the TF-IDF Array

 

After having the top 20K words we want to create a large array that its columns are the words of the dictionary with number of occurrences of each word and the rows are documents.

 

The first step is calculating the “Term Frequency”, TF (x, w), vector for each document as follows:

 

 

 

“Term Frequency” is an indication of the number of times a term occurs in a document. Numerator is number of occurrences of a word, and the denominator is the sum of all    the words of the document.

 

Next, calculate “Inverse Document Frequency” for all the documents and finally calculate TF-IDF(w) and create TF-IDF matrix of the corpus:

 

 

 

Note that the “size of corpus” is total number of documents (numerator). To learn more about TF-IDF see the Wikipedia page: https://en.wikipedia.org/wiki/Tf-idf

 

Task 3 - Implement the getPrediction function (30 Points)

 

Finally, implement the function getPrediction(textInput, k),which will predict the membership of the textInput to the top 20 closest documents, and the list of top categories.

 

You should use the cosine similarity to calculate the distances.

 

 

 

Task 4 (30 points): Implement the code using Dataframes

 

Implement the complete code in Dataframe and printout the results of the task 3 using dataframes in pyspark. From the beginning of your code to the end of your kNN implementation you are allowed to usespark dataframe and python (including python libraries like numpy). You are not allowed to use RDDs.

 

Task 5 (10 points) Removing Stop Words and Do Stemming

 

Task 5.1 - Remove Stop Words

 

Describe if removing the English Stop words (most common words like ”a, the, is, are, i, you, ...”) would change the final kNN results.

 

Does your result change significantly after removing the stop words? Why?

 

Provide reasons.

 

You do not need to code this task.

 

Task 5.2 - Considering English word stemming

 

We can stem the words [”game”,”gaming”,”gamed”,”games”] to their root word ”game” .

 

Does stemming change your result significantly? Why? Provide reasons.

 

You can learn more about stemming at:

 

https://en.wikipedia.org/wiki/Stemming

 

You do not need to code this task.

 

Submission Guidelines

 

● Naming Convention:

 

METCS777-Assignment3-[TaskX-Y]FIRST+LASTNAME.[pdf/py/ipynb]

 

Where:

 

o [TaskX-Y] doesn’t apply for .[pdf] files

 

o No space between first and lastname

 

● Files:

 

o Create one document in pdf that has screenshots of running results of all coding problems. For each task, copy and paste the results that your lastSpark job saved in the bucket. Also, for each Spark job, include a screenshot of the Spark History. Explain clearly and precisely the results.

 

o Include output file for each task.

 

o Please submit each file separately (DO NOT ZIP them!!!).

 

● For example, sample submission of John Doe’s Assignment 4 should be the following files:

 

o METCS777-Assignment4-JohnDoe.pdf

 

o METCS777-Assignment4-Task**4-JohnDoe.ipynb

 

o METCS777-Assignment4-Task**JohnDoe.py

 

o METCS777-Assignment4-Task**Output-JohnDoe.txt

 

o METCS777-Assignment4-Task2-JohnDoe.py

 

o METCS777-Assignment4-Task2-Output-JohnDoe.txt o …

 

 

 

Figure 1: Screenshot of Spark History

 

 

Evaluation Criteria for Coding Tasks

 

 

Academic Misconduct Regarding Programming

 

In a programming class like this, there is sometimes a very fine line between “cheating” and acceptable and beneficial interaction between peers. Thus, it is very important that  you fully understand what is and what is not allowed in terms of collaboration with your classmates. We want to be 100% precise,so that there can be no confusion.

 

The rule on collaboration and communication with your classmates is as follows: you cannot transmit or receive code from or to anyone in the class in anyway —visually (by  showing someone your code), electronically (by emailing, posting, or otherwise sending someone your code), verbally (by reading code to someone) or in any other way we have not yet imagined. Any other collaboration is acceptable.

 

It is not allowed to collaborate and communicate with people who are not your classmates (or your TAs or instructor). This means posting any questions of any nature to programming forums such as StackOverflow is strictly prohibited. As far as going to  the web and using Google, we will apply the “two-line rule”. Go to any web page you   like and do any search that you like. But you cannot take more than two lines of code   from an external resource and include it in your assignment in any form. Note that changing variable names or otherwise transforming or obfuscating code you found on  the web does not render the “two-line rule” inapplicable. It is still a violation to obtain more than two lines of code from an external resource and turn it in, whatever you do to those two lines after you first obtain them.

 

Furthermore, you must always cite your sources. Add a comment to your code that includes the URL(s) that you consulted when constructing your solution. This turns out to be very helpful when you’re looking at something you wrote a while ago and you need to remind yourself what you were thinking.

請加QQ:99515681  郵箱:99515681@qq.com   WX:codehelp 

掃一掃在手機打開當前頁
  • 上一篇:System Calls程序代做、代寫Manage Files
  • 下一篇:代寫CSC8636 – Summative Assessment
  • 無相關信息
    合肥生活資訊

    合肥圖文信息
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    出評 開團工具
    出評 開團工具
    挖掘機濾芯提升發動機性能
    挖掘機濾芯提升發動機性能
    海信羅馬假日洗衣機亮相AWE  復古美學與現代科技完美結合
    海信羅馬假日洗衣機亮相AWE 復古美學與現代
    合肥機場巴士4號線
    合肥機場巴士4號線
    合肥機場巴士3號線
    合肥機場巴士3號線
    合肥機場巴士2號線
    合肥機場巴士2號線
    合肥機場巴士1號線
    合肥機場巴士1號線
  • 短信驗證碼 豆包 幣安下載 AI生圖 目錄網

    關于我們 | 打賞支持 | 廣告服務 | 聯系我們 | 網站地圖 | 免責聲明 | 幫助中心 | 友情鏈接 |

    Copyright © 2025 hfw.cc Inc. All Rights Reserved. 合肥網 版權所有
    ICP備06013414號-3 公安備 42010502001045

    99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

          9000px;">

                久久伊人中文字幕| 成人晚上爱看视频| 蜜桃精品在线观看| 在线视频国内自拍亚洲视频| 国产色综合久久| 久久精品国产久精国产| 91精选在线观看| 性感美女久久精品| 欧美另类变人与禽xxxxx| 亚洲精品中文字幕在线观看| 成人激情小说乱人伦| 国产欧美精品一区aⅴ影院| 中文字幕综合网| 国产乱子轮精品视频| 欧美四级电影网| 17c精品麻豆一区二区免费| 狠狠色丁香婷婷综合| 欧美日韩黄色影视| 麻豆精品久久精品色综合| 欧美tk—视频vk| 男人的天堂亚洲一区| 日韩欧美www| 国产成+人+日韩+欧美+亚洲| 国产精品久久久久久久久搜平片| 91网站在线观看视频| 天堂精品中文字幕在线| 精品少妇一区二区三区在线播放 | 337p粉嫩大胆噜噜噜噜噜91av | 亚洲高清在线精品| 欧美电影影音先锋| 国产精品自拍网站| 亚洲精品少妇30p| 欧美一区二区精品| 成+人+亚洲+综合天堂| 亚洲精品成人精品456| 欧美一级理论片| 高清av一区二区| 欧美激情中文字幕一区二区| 国产一区二区久久| 国产午夜精品理论片a级大结局| 久久国产婷婷国产香蕉| 成人免费在线观看入口| 日韩写真欧美这视频| av在线播放成人| 亚洲国产中文字幕| 国产精品久久影院| 99精品视频在线播放观看| 自拍av一区二区三区| 色婷婷亚洲综合| 亚洲福利电影网| 日韩限制级电影在线观看| 激情综合网最新| 日本一区二区三区免费乱视频| 成人a免费在线看| 亚瑟在线精品视频| 欧美xxxxxxxxx| 成人黄色在线视频| 一区二区三区鲁丝不卡| 日韩久久久久久| 99热这里都是精品| 蜜臀av一区二区在线免费观看| 一区二区三区国产精品| 中文字幕一区二区三区不卡在线| 精品国产91久久久久久久妲己| 欧美日本一区二区三区| 欧美综合色免费| 色综合久久综合| 99国产精品久久久久久久久久久| 国产一区二区调教| 国产一区二区伦理片| 国内精品久久久久影院色| 毛片一区二区三区| 蜜桃视频一区二区三区| 五月激情综合网| 亚洲一区二区视频在线| 亚洲已满18点击进入久久| 日韩美女精品在线| 亚洲精品欧美专区| 一区二区三区四区视频精品免费 | 99精品久久99久久久久| 成人午夜又粗又硬又大| 不卡的电影网站| av亚洲精华国产精华| jlzzjlzz亚洲女人18| 99久久久久久| 欧美日韩国产一级片| 日韩欧美中文字幕精品| 精品久久久三级丝袜| 久久久九九九九| 国产精品国产成人国产三级| 亚洲欧洲性图库| 香蕉av福利精品导航| 美女视频黄频大全不卡视频在线播放| 美女视频黄频大全不卡视频在线播放| 久久超级碰视频| 国产一区二区三区美女| 94-欧美-setu| 91精品免费观看| 国产亚洲成av人在线观看导航 | 午夜a成v人精品| 久久成人久久爱| 国产成人aaa| 欧美综合久久久| 日韩精品中午字幕| 综合网在线视频| 日韩专区中文字幕一区二区| 九色综合狠狠综合久久| 成a人片国产精品| 欧美老女人第四色| 国产精品视频一二| 日本三级亚洲精品| 成人国产电影网| 91精品国产色综合久久不卡蜜臀| 国产欧美日韩在线| 日韩经典一区二区| 国产成人av一区二区三区在线 | 亚洲第一在线综合网站| 国产成人午夜视频| 欧美日韩色综合| 精品婷婷伊人一区三区三| 欧美亚洲日本一区| 欧美一区日韩一区| 亚洲欧美视频一区| 成人污视频在线观看| 久久众筹精品私拍模特| 五月激情丁香一区二区三区| 国产91综合一区在线观看| 欧美性欧美巨大黑白大战| 中文字幕精品一区二区三区精品 | 欧美xxxx老人做受| 天堂午夜影视日韩欧美一区二区| 99精品久久只有精品| 久久久久九九视频| 久久er99精品| 日韩欧美在线网站| 午夜欧美在线一二页| 不卡的看片网站| 国产欧美视频在线观看| 国产原创一区二区三区| 日韩一级免费观看| 人人精品人人爱| 777午夜精品视频在线播放| 亚洲一区二区3| 在线日韩一区二区| 亚洲一区在线观看网站| 在线观看日韩毛片| 一区二区三区在线高清| 色综合久久久久| 亚洲美女区一区| 国产在线麻豆精品观看| 欧美视频在线一区二区三区| 亚洲乱码日产精品bd| 在线精品视频免费播放| 亚洲一区二区视频| 精品视频在线免费| 日韩精品乱码免费| 欧美成人r级一区二区三区| 另类中文字幕网| 国产欧美日韩一区二区三区在线观看| 国产精品一二三四五| 国产精品毛片高清在线完整版| a美女胸又www黄视频久久| 亚洲日本一区二区三区| 欧美日韩一区国产| 蜜臀av一区二区在线观看| 欧美xxxxxxxx| av不卡在线观看| 午夜精品一区二区三区免费视频 | 91免费精品国自产拍在线不卡| 一区二区三区精品| 欧美一区二区三区电影| 久久se精品一区精品二区| 久久影院视频免费| 91在线观看免费视频| 亚洲h在线观看| 欧美午夜精品理论片a级按摩| 国产精品综合久久| 亚洲一区二区四区蜜桃| 国产欧美日韩不卡| 欧美天天综合网| 国产高清精品久久久久| 亚洲主播在线播放| 久久综合九色综合97_久久久| 不卡av在线免费观看| 五月天激情综合| 国产精品久久久久影院亚瑟| 欧美三级蜜桃2在线观看| 国产高清精品在线| 日韩av一区二区三区四区| 国产欧美日韩不卡| 91精品国产综合久久福利| 成人黄页毛片网站| 久久精品国产一区二区三 | 中文字幕一区二区三区不卡| 色婷婷香蕉在线一区二区| 丁香亚洲综合激情啪啪综合| 狠狠色2019综合网| 国产成人在线视频网址| 国产精品一二三区| 国产精品综合网|