数据科学家 Daniil Shvets:算法常常被归咎于偏见,无论数据依赖如何


在过去的十年里,人工智能已经从虚构的想法变成了应用技术。今天,算法无处不在:在智能手机、汽车、在线商店甚至线下零售中。

所有这些发展的背后是大量的科学家、工程师、开发人员和管理人员,他们一步一步地使人类更接近新的技术视野。

在 ForkLog AI 的独家采访中,Tango.me 数据科学团队负责人 Daniil Shvets 谈到了数据科学家职业的本质、算法为何存在偏见、如何处理深度伪造以及 OpenAI 为何出售其开发成果.

ForkLog AI:下午好,丹尼尔。你的第一个教育是经济学,你甚至在你的专业工作。你为什么决定转向 IT?

Daniil Shvets:这是一个意外。当我从企业管理毕业时,我意识到当经理是好的,但你需要管理某个领域的特定事物。

凭借强大的数学背景,我决定回到更技术性的领域。那正是数据科学兴起的时候。此外,有一段时间我试图教他,做我自己的项目。

我一直对以某种方式将业务和技术结合起来的方法很感兴趣。我仍然相信数据科学是找到面向业务的领域和技术工具的最佳场所。

ForkLog AI:你在活动变更过程中遇到了哪些困难?

Daniil Shvets:数据科学不仅是数学和算法,还包括计算机科学、软件开发等,因此出现了困难。我在技术部分遇到问题。

例如,结果证明写一个算法是没有问题的。但是要启动它需要更多与数据工程相关的技能而不是数据科学。这有困难。

当我去学习成为一名数据科学家时,我意识到我严重缺乏计算机科学技能。因此,当他们在开始培训之前问我你需要了解什么时,我建议你至少先了解一下这些内容。

ForkLog AI:你在莫斯科长大,但很久以前移居国外了。你如何评价独联体的 IT 行业,尤其​​是人工智能?

Daniil Shvets:在俄罗斯和独联体国家,自苏联时代以来,科学和教学法有了强大的发展。大量的专业人士聚集在这里,他们对数学有很好的理解,数学是人工智能和编程不可或缺的一部分。在其他国家,人们对此有问题。

也就是说,就人员、人员和潜力而言,这些可能是我所知道的最强大的国家。

然而,俄罗斯和独联体的问题在于,有意义的人工智能正在俄罗斯联邦储蓄银行或 Yandex 等大公司的保护下被创造出来。

据我所知,在俄罗斯很难从头开始创建一家与任何大公司或政府机构无关的初创公司。在以色列、伦敦、美国——受过教育和有想法的人将能够以某种方式找到投资者。但在我看来,在俄罗斯,寻找资金和自主开发初创公司的过程是缺失的。

正因为如此,大量的人才要么去Yandex和Sberbank这些发展非常强大的优秀公司工作,要么离开这个国家。与其他一些国家相比,在俄罗斯甚至可能在独联体国家创建初创公司的机会更少。

ForkLog AI:在这种情况下,国家应该帮助行业发展吗?

Daniil Shvets:当然。对于 IT 的未来,而不仅仅是满足国家直接利益的技术。这包括有助于经济增长、出口和以某种方式改善公民生活的潜在产品。

在我看来,政府应该[支持这个行业],这与俄罗斯、乌克兰、白俄罗斯无关——这绝对适用于任何国家,不取决于地理位置。

ForkLog AI:谈全球人工智能行业趋势,前景如何,是否正朝着正确的方向发展?

Daniil Shvets:现在这个行业正朝着一个很好的方向发展。是的,大公司垄断方向和研究有一定的趋势。谷歌、Facebook、亚马逊等六家公司垄断了 IT 行业的许多领域,例如云技术。如果潜在的竞争对手出现在地平线上,他们要么购买它,要么扼杀它。这绝对是一个缺点。

但是,另一方面,它使大量初创公司能够使用与这些公司相同的云存储和技术,无需在自己的基础设施上投入大量资金即可进行开发。这与力量的分配有关。 

至于控制,现在有各种流程自动化的趋势,包括在人工智能的帮助下。这太棒了当然,出现了许多伦理问题,无法跨越的界限在哪里。比如人脸识别:它应该无处不在吗?

但在全球范围内,人工智能改善和简化了人们的生活,使其更高效、更舒适。

ForkLog AI:你怎么看待人脸识别?

Daniil Shvets:人脸识别是一项非常优秀且先进的技术,可以简化大量流程,包括搜索罪犯。但它不能被滥用。如果这项技术用于其预期目的,而不是为了他们自己的利益,那么我绝对赞成。中国一些地区现在发生的事情是另一回事。社会评级,控制人类的每一个行为——在我看来,已经有些过头了。

ForkLog AI:在你看来,中国的经历是否会导致某种形式的数字暴政或安全社会?

Daniil Shvets:这些事情彼此密切相关。所有技术都有利有弊。

一方面,如果你控制了人类的每一个行为,犯罪就会减少,侦破率会提高,社会就会安全。另一方面,人们将失去个人自由。 

这一切都取决于一个人为了冷静和稳定而愿意做出什么样的牺牲。很难想象,仅仅使用技术来控制犯罪,如何确保一个绝对安全的社会,同时又保护公民个人生活的自由度和隐私度。

ForkLog AI:以色列的人脸识别怎么样?

Daniil Shvets:我在这里看到的摄像机比其他许多地方少得多。要么在以色列,他们学会了以一种他们在其他任何地方都无法做到的方式来伪装他们,要么在这里用这些东西真的很容易。

ForkLog AI:说到以色列,最近有一些关于以色列国防军如何将人工智能用于军事目的的消息。最近的一个案例是在最近的炮击中使用了一群自主无人机。在战斗中使用人工智能是对人类的威胁还是安全问题?

Daniil Shvets:这取决于边界在哪里:在我看来,使用人工智能进行保护是一件积极的事情,例如无人机拦截导弹。使用人工智能进行攻击已经是一个比较棘手的话题,在这里我宁愿限制它,不管这种攻击有多么合理。

ForkLog AI:大型科技公司正试图与参与此类项目保持距离。例如,谷歌员工在 2018 年就迫使该公司放弃与美国国防部的合作。同时,公司制定了内部道德标准。你认为这是迈向人工智能非军事化的正确步骤吗?

Daniil Shvets:大公司发现自己处境艰难。一方面,他们不得不参与,因为只有他们具备开展国防项目所需的知识和能力。另一方面,公司由于不是政府所有,因此要承受巨大的声誉成本。

而现在任何丑闻都会引发大量的问题、抵制和其他影响公司、员工和收入的事情。

在我看来,他们正在做这项工作。是的,当然没有证据。如果是,那就意味着他们没有做好自己的工作。

我怀疑并假设像谷歌这样的公司直接或通过其结构以一种或另一种方式参与战略发展。包括国防部。

当然,他们尽量不做广告,包括在公司内部。因为在像 Google 这样的组织中,不可能对大型项目保密。

ForkLog AI:Deepfakes 每年都在变得更好。它们被广泛用于恶意目的的可能性有多大?

Daniil Shvets:在我看来,当然会有。我们将其视为大量其他技术的一个例子,这些技术最初只出现在科学文章中。然后它们可供具有 Google 或 Facebook 级别能力的公司使用。之后,工匠们可以做类似的事情,只有这样任何人才能通过应用程序使用它。 

例如,几年前有一个流行的应用程序,可以让人变老。这是五到七年前仅在科学文章中描述的内容。逐渐地,逐渐地——它变得更容易接近了。

Deepfake 也是如此。到目前为止,公共服务还不够好,无法完全区分。但这个过程是无情的,无法逆转。总会有公司有兴趣创建一家初创公司或应用程序,以制作更好的深度伪造,并且该技术将变得更容易获得,包括那些没有最好意图的人。 

在我看来,deepfakes 是一个非常大的危险。我很难想象,几年后,公开的Deepfakes质量会如此之高,以至于无法区分图片与真实图片,骗子也不会利用它。

ForkLog AI:怎么处理,谁来做?

Daniil Shvets:有相同的算法可以识别深度伪造。就像有病毒和防病毒软件一样,这是一场永恒的斗争。同样的事情在这里很有可能。

有一些技术可以将真实图像与生成的图像区分开来。Adobe 最近发布了一个工具,可让你查看图像是否已在 Photoshop 中润饰。这里可以做一些类比:就像网络犯罪分子会使用深度伪造一样,他们的潜在受害者将能够购买一些服务来识别他们并将其与真实图像区分开来。

ForkLog AI:Deepfakes 与伦理和道德问题并存。最近,有很多研究和新闻表明,一些算法偏向于某些人群。你认为问题是真实存在的还是短期趋势?

Daniil Shvets:算法是有偏见的,因为它们从一些数据中学习。如果我们看到某些人比其他人更频繁地发生事故,那么保险公司的算法会增加这些人发生事故的可能性并增加保单成本。这是偏见吗?在我看来,没有。因为这是数据。

很明显,某些因素会影响我们的预测。当谈到增长时,几乎没有人会抱怨因为增长而受到歧视。但如果与数据科学相关的特定过程中的决定性因素是性别、国籍或肤色,则认为该算法歧视了某人。然而,这是由于全球社会问题而出现的,因为这个话题在今天很尖锐。

ForkLog AI:在你的实践中,是否存在算法可能以有偏见的方式运行的情况?

Daniil Shvets:当然,这种情况几乎发生在任何有性别、年龄、国籍等相关迹象的地方。该算法的本质是每个参数都以一种或另一种方式影响结果。例如,如果在算法中,男性和女性的一切都相同,那么我们将不会在此算法中使用性别,因为它不会给我们任何细分。因此,在几乎所有算法中,以一种或另一种方式使用性别、肤色、年龄——这些因素会以一种或另一种方式影响。

ForkLog AI:伦理问题和通用 AI 的出现也往往密不可分。人类真的需要它吗?

Daniil Shvets:到目前为止,人工智能与人工智能的一些概念相去甚远,即通用人工智能的意思。我不认为在未来几年,通用人工智能会以超越和取代大量全球人类决策机构的方式出现。

ForkLog AI:DeepMind 最近表示强化学习足以创建通用 AI。你是否同意这种说法?

Daniil Shvets:强化学习确实可以取得非凡的成果,但在非常有限的领域。当涉及到跳棋、国际象棋或其他具有一组特定规则和限制的游戏时,你可以在其中进行大量模拟并在此过程中学习 – 当然可以。在同一个国际象棋、围棋、电子游戏中,这样的算法胜过人们中最严肃的专业人士。然而,这一切都是在特定领域完成的,规则集非常有限,不会改变。

在通用智能的背景下,我们的世界是一个巨大的多维模型,无法简化为规则数量有限的简单机制。而这里强化学习也存在一些问题,因为当没有任何细节的变量太多时,它没有能力进行大量的模拟。 

毕竟,培训是如何进行的?让我们在国际象棋中说:采用并模拟算法的策略。他们互相玩数十亿个游戏并同时学习。

在现实世界中,这种模拟很难实现。你可以采取一些实际行动,获得有关它们的反馈并衡量结果。但是这里的速度远不是计算机每天可以与自己进行数十亿次游戏的速度。

因此,尽管我确实认为强化学习是人工智能和科学中最有潜力和最重要的领域之一,但我不知道在当前情况下如何使用该工具来解决更抽象的问题和现实生活中遇到的多维问题,并不局限于一个特定的、非常特定的领域。

ForkLog AI:你认为引擎和行业威胁是哪位公众人物?

Daniil Shvets:我相信,现在推动这个行业向前发展的不是特定的人,而是整个行业的大量人员。如果 15 到 20 年前,可以这么说,人工智能的先驱为我们现在所从事的一切工作奠定了基础,那么现在我们看到,大量的顶级模型、新出版物并不是来自特定的人。它们是由于增持了一定数量的知识并对其进行了无休止的实验。迟早有人会拍出惊人的东西。 

因此,现在可能没有这样的名字。肯定有那些需要注意的。更有可能的是,一个不太出名的人会进行大量的实验和实验,成功和不成功,会做出非凡的事情。

ForkLog AI:OpenAI 曾承诺不会将其开发货币化。但去年 9 月,它与微软签署了独家使用 GPT-3 的协议,最近这两家公司将 Copilot 提交给了 GitHub。该组织是否逐渐转变为商业组织?

Daniil Shvets:任何公司都需要钱。OpenAI 与其他业务相关联,但它不能永远靠补贴生存。即使是那些为公共利益、开源等做事的公司,如果是认真的公司,也有认真的员工。如果有大量认真的员工和认真的设备,你必须为此付出代价。

因此,专门为公共利益创造一些东西,但同时又不收钱的想法是无法实现的。一个组织可以从其他公司获得资金,这会引发同样的问题,或者将其某些开发项目货币化,以便有机会向社会捐赠其他一些开发项目。

ForkLog AI:关于 Copilot,这些工具的前景如何?你会在你的工作中使用它们吗?

Daniil Shvets:我没有使用这个特定的工具。原则上,我在编写代码时没有使用任何帮助程序。在我看来,大多数编写代码的人不太可能在短期内利用这一点。但是这样的工具可以帮助新手程序员或那些需要解决一些问题的人,但同时他们也缺乏一些技巧。

ForkLog AI:未来会不会随着这些工具的普及,新手程序员会越来越依赖它们,失去一些可以在这个过程中发展的技能和能力,从其他来源获得知识?

Daniil Shvets:当然。例如,由于自动更正器的普及,即使是识字的人也更容易在手写文本中出错。

我也可以为自己说,我几乎忘记了如何口头计数。对于一些简单的事情,我们现在都使用计算器。因为它们已经公开可用。我敢肯定,习惯于在没有计算器的世界中生活和工作的老一辈,在他们的头脑中计算得更好。 

当一些改进和简化出现时,人们就会失去一些基本技能,也许编程也会发生同样的情况。

ForkLog AI:你过去的专业和创业背景对你现在的职业有帮助吗?

Daniil Shvets:如果我们谈论一些直接技能,那就什么都没有了。但我想说的是,不同领域的经验,无论是什么:经济、创业、医学或其他领域,它们都可以让任何问题,包括与人工智能和数据科学相关的问题,更全面地、从不同的方面看待。

我相信不同的专业经验让我能够全面地看待问题,了解业务问题及其含义,然后再借助数据科学解决问题。

ForkLog AI:找到第一份数据科学工作难吗?

Daniil Shvets:我的第一份工作很难找到,但在这方面我很幸运。当我刚完成学业时,碰巧赢得了一家大银行组织的黑客马拉松。在那之后,结果证明他们需要一个人来实验性地改革一些与数据科学和分析相关的系统。我想,为什么不呢?

我认为是运气。在全球范围内,我知道找到第一份工作非常困难。特别是由于现在你可以在 Coursera、DataCamp 和其他在线价格上获得非常好的知识,这导致了劳动力市场的激烈竞争。

ForkLog AI:你会给数据科学初学者什么建议?

Daniil Shvets:我会建议很多人不做的相当简单的事情 – 不要将自己限制在同一价格和教科书中的技术知识上。我建议看看如何解决业务问题。现在很多人都在学习所有这些理论,他们知道如何制作标准项目,查看结果等等。当然,这很重要,没有它就没有办法。但是现在有一些库可以让你在几行代码中完成所有这些事情。

在我看来,数据科学家不再只是一个技术专长,粗略地说,创建算法。相反,他们是通过数据科学、算法、数据、培训等解决业务问题的人。而如何将业务问题转化为数据语言正是我在我雇用的人员中寻找的。对于我聘请数据科学家的许多熟人来说,这正是他们真正缺乏的。 

同样,数据科学家不仅仅是技术专长。这是一个知道如何使用算法方法为特定产品或业务问题提供解决方案的人。

ForkLog AI:据我所知,你也参与了创作活动。你如何看待旨在执行与艺术相关的任务的各种算法?

Daniil Shvets:在不久的将来,一个人不会在这里被取代,至少,因为创造力的本质总是至少想出一点新的东西,而不是照旧照搬或做一些东西.

所有真正的创造性突破都是某种新鲜事物。不管是什么,所有算法都从已经存在的东西中学习。是否可以教计算机模拟特定类型的作品?当然,他以后会做得更好。但是,至少在今天,计算机能够创造和发明一种新的流派吗?我不信。

在 Telegram 上订阅 ForkLog 新闻:ForkLog AI – 来自 AI 世界的所有新闻

发现文中有错误?选择它并按 CTRL + ENTER

资讯来源:由0x资讯编译自FORKLOG。版权归作者Богдан Каминский所有,未经许可,不得转载

Total
0
Shares
Related Posts